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O' Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 自 1978 年 开始 ，O” Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 
的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O” Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 










































































O' Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 和 杂志， 从 而 成 为 DIY 革 命 的 主 
先锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O” Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选 
择 ，O” Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 者 面授 课程 ， 每 一 项 O” Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 激发 创新 的 力量 。 












































业界 评论 


"O' Reilly Radar 博 客 有 口 辟 碑 。” 











Wired 
“O”Reilly 赁 借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 
Business 2.0 
“O? Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 
“一 本 DO ”Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 (岔路 ) 。” 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 
且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 





Linux Journal 


文本 挖 据 是 一 种 从 文本 数据 中 抽取 有 价值 的 信息 和 知识 的 计算 机 处 理 技术 ， 也 是 自然 语言 处 理 的 热门 话题 。 本 书 主要 介绍 整洁 数据 的 文本 挖掘 与 分 析 。 整 洁 数据 具有 简单 且 新 颖 的 结构 ， 对 其 进行 分 析 
会 更 有 效 、 更 容易 。 本 书 的 所 有 代码 都 是 基于 RR 语言 来 编写 的 ， 采 用 tidytext 软 件 包 以 及 其 他 整洁 工具 来 挖 气 文件 中 的 有 用 信息 ， 并 用 图 形 展示 出 来 ， 这 对 理解 文本 内 容 非常 有 帮助 。 本 书 提供 了 非常 有 用 的 真 
实 案 例 ， 这 会 为 对 文本 分 析 工 作 感 兴趣 的 人 提供 有 价值 的 信息 。 





全 书 共 9 章 ， 主 要 介绍 如 何 使 用 基于 有 R 的 整洁 工具 来 进行 文本 分 析 。 首 先 介绍 了 整洁 文本 的 格式 ， 以 及 如 何 获取 整洁 文本 数据 集 ; 并 通过 tidytext 中 的 情感 数据 集 来 进行 情绪 分 析 ; 接着 介绍 了 如 何 根据 tf 
idf 统 计量 来 识别 特定 文档 中 的 重要 单词 ， 以 及 如 何 利 用 n-gram 来 分 析 文 本 中 的 文字 网 络 ; 之 后 介绍 了 如 何 将 整洁 文本 转换 为 文档 词 项 给 阵 和 Corpus 对 象 格式 ， 并 给 出 了 主题 建 模 的 概念 ， 最 后 通过 整合 多 种 已 
知 的 整洁 文本 挖 据 方 法 ， 给 出 了 一 些 研究 案例 ， 这 些 案例 涉及 Twitter 归档 文件 、NASA 数 据 集 以 及 来 自 新 闻 组 的 即时 通信 信息 。 总 的 来 说 ， 本 书 侧重 于 分 析 文 学 、 新 闻 和 社交 媒体 方面 的 文本 ， 非 常 适合 从 事 
相关 文本 挖掘 的 工作 人 员 和 自然 语言 的 初学 者 阅读 。 与 此 同时 ,使 用 书 中 提供 的 大 量 针对 性 编程 例子 ， 不 但 可 以 提高 工程 实战 能 力 ， 而 且 可 以 在 本 书 提 到 的 整洁 框架 上 建立 自己 的 分 析 任 务 。 
翻译 本 书 的 过 程 也 是 译 者 不 断 学 习 的 过 程 。 为 了 保证 专业 词汇 翻译 的 准确 性 ， 我 们 在 翻译 过 程 中 查阅 了 大 量 相关 资料 。 但 由 于 时 间 和 能 力 有 限 ， 书 中 内 容 难免 出 现 差 错 。 如 果 你 在 阅读 中 发 现 了 问题 ， 
欢迎 通过 电子 邮件 liubo7971@163.com 或 luofcn@163.com 与 我 们 联系 ， 期 待 与 你 一 起 探讨 ， 共 同 进步 。 
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如 果 你 从 事 分 析 或 数据 科学 方面 的 工作 ， 那 么 一 定 熟知 这 样 一 个 事实 : 数据 正在 以 前 所 未 有 的 速度 快速 生成 (也许 这 样 的 话 有 很 多 人 都 讲 过 ) 。 通 常 培训 分 析 人 士 来 处 理 数 字 的 表格 或 规整 的 数据 。 但 
现在 大 部 分 新 增 的 数据 都 是 非 结构 化 的 文本 ， 而 许多 在 分 析 领 域 工作 的 人 都 没有 接受 过 乃至 简单 接受 过 处 理 自然 语言 方面 的 训练 。 












































尽管 我 们 熟悉 许多 数据 处 理 和 可 视 化 方法 ， 但 是 将 这 些 方法 应 用 于 文本 处 理 并 非 易 事 ， 所 以 开发 了 tidytext R 包 (Silge 和 Robinson，2016) 。 我 们 发 现 采 用 数据 整洁 原则 可 以 使 许多 文本 挖掘 任务 变 得 
更 简单 、 更 有 效 ， 并 且 该 原则 和 广泛 使 用 的 工具 也 是 相 一 致 的 。 把 文本 当 作 由 单个 单词 构成 的 数据 框 的 优势 在 于 : (1) 有 助 于 轻松 地 操作 、 汇 总 以 及 展示 文本 特征 ; (2) 有 助 于 将 自然 语言 处 理 整合 到 有 
效 的 工作 流程 中 。 




























































































DH 


此 ， 本 书 还 提供 了 真实 的 、 极 具 吸 引力 的 文本 挖 握 案 





























本 书 介绍 了 如 何 使 用 tidytext 包 以 及 其 他 基于 R 语 言 的 tidy 工 具 来 进行 文本 挖掘 。tidytext 包 提供 的 函数 相对 简单 ， 但 如 何 使 用 这 个 包 则 很 重要 。 
例 。 






































大 纲 











本 书 首先 介绍 整洁 文本 格式 ， 一 些 有 关 dplyr、tidyr 和 tidytext 包 的 使 用 方法 则 按 如 下 过 程 来 介绍 : 








第 1 章 概述 了 整洁 文本 格式 和 unnest_tokens () 函数 ， 同 时 介绍 了 gutenbergr 和 janeaustenr 包 ， 这 些 包 提供 了 与 文学 相关 的 文本 数据 集 ， 本 书 会 使 用 这 些 数 据 集 来 进行 介绍 。 


:第 2 章 介绍 了 如 何 使 用 tidytext 中 的 sentiments 数 据 集 以 及 dplyr 包 中 的 inner join () 函数 来 对 整洁 文本 数据 集 进行 情感 分 析 。 
- 第 3 章 介绍 了 tf-idf 统 计量 〈 词 项 频率 乘 以 北 文 档 频率 ) ， 它 可 用 来 识别 特定 文档 中 特别 重要 的 词 项 。 


“ 第 4 章 介 绍 了 n-gram 以 及 如 何 使 用 widyr 包 和 ggraph 包 来 分 析 文 本 中 的 文字 网 络 。 





文本 在 分 析 的 所 有 阶段 并 不 是 整洁 的 ， 能 够 在 整洁 和 不 整洁 格式 之 间 进 行 转换 就 显得 非常 重要 。 
. 第 5 章 介绍 了 通过 tm 包 和 quanteda 包 来 使 文档 - 词 项 给 阵 和 Corpus 对 象 变 整 洁 的 方法 ， 以 及 如 何 将 整洁 文本 数据 集 转换 为 文档 - 词 项 矩阵 和 Corpus 对 象 格 式 。 
“ 第 6 章 介绍 了 主题 建 模 的 概念 ， 并 使 用 tidy () 方法 对 topicmodels 包 的 输出 进行 解释 和 可 视 化 。 
通过 整合 多 种 已 知 的 整洁 文本 挖掘 方法 ， 还 给 出 了 几 个 研究 案例 : 
“ 第 7 章 通过 作者 自己 的 Twitter 档案 展示 了 整洁 文本 分 析 的 应 用 。 例 如 ，Dave 和 Julia 的 Twitter 习惯 有 什么 不 同 ? 
- 第 8 章 通过 查看 超过 32000 个 NASA 数 据 集 (可 用 于 JSON 格 式 ) 中 的 关键 字 与 标题 、 描 述 字段 的 关系 来 探索 元 数据 。 


| 第 9 章 分 析 不 同 新 闻 组 (与 政治 、 曲 棍 球 、 技 术 、 无 神 论 等 有 关 的 主题 ) 的 即时 通信 消息 数据 集 来 了 解 新 闻 组 中 共同 的 模式 。 


本 书 不 包括 的 主题 


本 书 对 整洁 文本 挖掘 框架 进行 了 介绍 ， 并 给 出 了 一 系列 的 示例 ， 但 对 于 全 面 研究 自然 语言 处 理 领 域 而 言 ， 这 些 依然 不 够 。CRAN Task View on Natural Language 
Processing (https://cran.rproject.org/view- NaturalLanguageProcessing) 提供 了 其 他 使 用 R 进 行 计算 语言 学 研究 的 详细 信息 。 根 据 个 人 需求 ， 你 可 能 还 想 在 以 下 方面 进一步 研究 : 









































聚 类 、 分 类 和 预测 



































文本 机 器 学 习 是 一 个 广泛 的 话题 ， 可 以 轻松 地 找到 很 多 与 之 相关 的 内 容 。 第 6 章 将 介绍 一 种 无 监督 聚 类 (主题 建 模 ) 方法 ， 但 是 还 有 更 多 其 他 的 机 器 学 习 方 法 可 以 用 来 处 理 文本 。 


FRA 




















表示 并 不 像 我 们 理解 的 那样 整洁 ， 但 已 经 可 以 在 机 器 学 习 方法 中 得 以 广泛 应 用 。 





当前 流行 的 一 种 文本 分 析 方 法 是 将 单词 映射 为 向 量 ， 以 便 能 检查 单词 之 间 的 语言 关系 并 对 文本 进行 分 类 。 尽 管 这 些 单词 
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更 复杂 的 词 条 化 
































tidytext 包 通过 信任 词 条 化 包 (Mullen, 2016) 来 进行 标记 ， 其 本 身 使 用 统一 的 界面 并 包括 各 种 词 条 化 方法 ， 但 是 在 具体 的 应 用 程序 中 还 有 许多 其 他 的 词 条 化 方法 。 


























除 英 文 以 外 的 其 他 语言 


























一 些 用 户 已 经 成 功 地 将 tidytext 应 用 于 除 英语 以 外 的 其 他 语言 的 文本 挖掘 ， 但 是 本 书 不 涵盖 这 方面 的 例子 。 

















关于 本 书 








本 书 重点 介绍 实际 软件 示例 和 数据 展示 ， 几 乎 没有 公式 ， 但 是 有 大 量 的 代码 。 我 们 重点 关注 在 分 析 文学 、 新 闻 和 社交 媒体 时 的 深入 理解 。 

















本 书 不 需要 读者 具有 文本 挖 握 知 识 ， 而 专业 语言 学 家 和 文本 分 析 师 可 能 会 认为 本 书 的 示例 比较 初级 ， 但 我 们 相信 ， 他 们 也 可 以 在 这 个 框架 上 建立 自己 的 分 析 。 





























本 书 假设 读者 至 少 熟悉 R 中 的 dplyr、9ggplot2 和 > (管道 ) 运算 符 ， 并 且 对 如 何 应 用 这 些 工 具 进 行文 本 数据 挖掘 感 兴 趣 。 对 于 没有 这 种 专业 背景 的 读者 ， 推 荐 阅读 Hadley Wickham 和 Garrett 
Grolemund (O' Reilly) 的 《R for Data Science》 一 书 。 若 读者 有 一 点 背景 并 对 整洁 文本 感 兴趣 ， 即 使 是 R 初 学 者 也 可 以 理解 和 使 用 本 书 的 示例 。 









































饼 如 果 你 正在 阅读 本 书 的 纸 质 版 本 ， 那 么 图 像 会 以 灰 度 而 不 是 彩色 的 形式 呈现 。 要 查看 彩色 版 本 的 图 像 ， 请 参阅 本 书 的 GitHub 页 面 (http://github.com/dgrtwo/tidytext-mining) 。 




















本 书 约定 








本 书 使 用 以 下 惯例 : 





EHk (talic) 





表示 新 的 术语 、 网 址 、 电 子 邮件 地 址 、 文 件 名 和 文件 扩展 名 。 


等 宽 字 体 (Constant width) 




















的 程序 元 素 ， 如 变量 或 函数 名 称 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 语 句 和 关键 字 。 





于 程序 清单 ， 以 及 段落 中 引 
































等 宽 粗 体 (Constant width bold) 











展示 用 户 应 直接 输入 的 命令 或 其 他 文字 。 

















等 宽 斜 体 (Constant width italic) 








表示 应 使 用 用 户 提供 的 值 来 替换 或 由 上 下 文 确定 的 值 。 




















们 表示 提示 或 建议 。 
入 去 示 普通 注释 。 


从 表示 警告 或 注意 。 


使 用 代码 示例 

















本 书 在 大 部 分 分 析 的 过 程 中 都 给 出 了 代码 ， 但 出 于 篇 幅 考虑 ， 如 果 生 成 图 形 的 代码 已 经 出 现 过 ， 则 不 再 提供 类 似 的 代码 。 相 信 读 者 可 以 学 习 并 延伸 本 书 示例 ， 另 外 本 书 代 码 可 以 在 GitHub 公 共 库 中 找 
到 。 



































本 书 旨 在 帮助 读者 完成 工作 ， 一 般 来 讲 ， 读 者 可 以 在 程序 和 文档 中 使 用 本 书 提供 的 示例 代码 。 除 非 对 代码 的 重要 部 分 进行 加 工 出 版 ， 否 则 不 需要 与 我 们 联系 。 例 如 ， 使 用 本 书 中 多 个 代码 块 开发 程序 不 
































需要 经 过 我 们 许可 ， 但 出 售 或 发 行 0，Reilly 书 籍 示例 的 CD-ROM 则 需要 许可 ， 引 用 本 书 和 示例 代码 来 回答 问题 不 需要 许可 ， 将 本 书 中 重要 的 示例 代码 合并 到 产品 文档 则 需要 许可 。 











如 果 你 引用 了 本 书 中 的 内 容 ， 我 们 希望 你 能 注 明 出 处 ， 包 括 标 题 、 作 者 、 出 版 商 和 ISBN。 














例如 : "Text Mining with R by Julia Silge and David Robinson (O' Reilly) .Copyright 2017 Julia Silge and David Robinson, 978-1-491-98165-8" , 


如 果 你 认为 本 书 代码 示例 或 上 述 许可 不 合理 ， 请 随时 通过 permissions@oreilly.com 与 我 们 联系 。 


Safari@ 在 线 图 书 


Safari 是 一 个 为 企业 、 政 府 、 教 育 和 个 人 提供 的 会 员 制 培训 、 参 考 平台 。 


会 员 可 以 访问 数 以 干 计 的 书籍 、 培 训 视 频 、 学 习 路 径 、 互 动 教程 以 及 来 自 250 多 个 出 版 社 策划 的 播放 列表 ， 包 括 O' Reilly Media, Harvard Business Review, Prentice Hall Professional, Addison- 
Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press, Adobe, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe 


Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, Jones & Bartlett， 以 及 其 他 在 线 技术 。 


更 多 信息 请 访问 : http://oreilly.com/safari, 


联系 我 们 


对 于 本 书 ， 如 果 有 任何 意见 或 疑问 ， 请 按照 以 下 地 址 联系 本 书 出 版 商 。 


美国 : 





O' Reilly Media, Inc. 
1005 Gravenstein Highway North 


Sebastopol, CA 95472 





中 国 : 














北京 市 西城 区 西直门 南大 街 2 号 成 铬 大 厦 C 座 807 室 (100035) 











奥 莱 利 技术 咨询 (北京 ) 有 限 公司 





要 询问 技术 问题 或 对 本 书 提出 建议 ， 请 发 送 电子 邮件 至 : 


bookquestionsQoreilly.com 





要 获得 更 多 关于 我 们 的 书籍 、 会 议 、 资 源 中 心 和 O” Reilly 网 络 的 信息 ， 请 参见 我 们 的 网 站 : 


http://www.oreilly.com 
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第 1 章 ”整洁 文本 格式 








使 用 整洁 数据 原则 是 一 种 更 容易 、 更 有 效 的 数据 处 理 方式 ， 这 在 处 理 文本 时 也 是 如 此 。Hadley Wickham (Wickham, 2014) 认为 整洁 数据 的 结构 为 : 

















“ 每 次 观察 的 结果 会 构成 一 张 表 





因此 ， 可 将 整洁 


的 文本 格式 定义 为 表 的 每 行 都 有 一 个 词 条 (token) 。 词 条 是 一 个 有 意义 的 文本 单元 ， 例 如 在 分 析 时 感 兴趣 的 单词 ， 而 词 条 化 是 将 文本 分 解 为 词 条 的 过 程 。 这 种 每 行 一 个 词 条 (one- 











token-per-row) 的 结构 与 当前 分 析 文本 时 采用 字符 串 或 文档 - 词 项 (document-term) 和 矩阵 的 存储 方式 形成 对 比 。 对 于 整洁 文本 挖掘 ， 存 储 在 每 行 的 词 条 通常 是 一 个 单词 ， 但 也 可 以 是 n-gram、 和 句子 或 
段落 。tidytext 包 能 通过 常用 文本 单元 来 进行 词 条 化 的 功能 ， 并 将 其 转换 为 每 行 一 个 词 条 的 格式 。 












































洁 数 据 集 多 许 














和 使 用 一 套 “简洁 ” 工 具 进 行 操作 ， 包 括 诸 如 dplyr (Wickham 和 Francois，2016) , tidyr (Wickham, 2016) , ggplot2 (Wickham, 2009) 和 broom (Robinson, 2017) 等 流行 























包 。 通 过 保证 输入 和 输出 为 整洁 表格 的 形式 ， 用 户 在 这 些 包 之 间 的 转换 很 容易 。 这 些 简洁 工具 能 扩展 到 许多 文本 分 析 和 研究 中 。 




















同时 ，tidytext 软 件 包 并 不 期 望 用 户 在 分 析 过 程 中 始终 保证 文本 数据 是 整洁 的 。 该 软件 包 基于 文本 挖掘 R 包 ， 例 如 tm (Feinerer 等 人 ，2008) 和 quanteda (Benoit 和 Nulty，2016) ， 它 包括 tidy () 
对 象 (参见 broom 包 ) 的 功能 。 这 个 包 可 以 使 用 诸如 dplyr 和 其 他 整洁 工具 的 工作 流 ， 即 导入 、 过 滤 和 处 理 文本 ， 将 数据 转换 为 机 器 学 习 应 用 中 的 文档 - 词 项 矩阵 ， 最 后 可 用 ggplot2 将 模型 重新 转换 成 整洁 
形式 进行 解释 和 可 视 化 。 



























































比较 整洁 文本 结构 与 其 他 数据 结构 























如 上 所 述 ， 我 们 将 整洁 文本 格式 定义 为 每 行 一 个 词 条 形式 的 表 。 以 这 种 方式 构建 文本 数据 是 符合 整洁 数据 原则 的 ， 可 以 通过 一 组 一 致 的 工具 来 进行 操作 。 值 得 将 其 与 经 常 在 文本 挖掘 方法 使 用 的 文本 存 


储 方式 进行 比较 : 


字符 串 (Sting) 








当然 ， 文 本 可 以 作为 字符 串 ( 即 ， 字 符 向 量 ) 存储 在 R 内 ， 通 常 可 以 先 将 这 种 数据 读 入 内 存 中 。 


TÉ (Corpus) 











这 些 类 型 的 对 象 通常 售 有 原始 字符 串 ， 同 时 还 包含 标注 这 些 字 符 串 的 元 数据 和 详细 信息 。 





文档 - 词 项 和 矩阵 (Document-term matrix) 





这 是 一 个 描述 文档 集合 〈 如 语料库 ) 的 稀 玻 矩阵 ， 该 矩阵 的 行 表示 一 个 文 要 ， 列 表示 词 项 ， 和 矩阵 的 值 通常 是 数字 或 tf-idf 值 (参见 第 3 章 ) 。 


本 书 第 5 章 还 会 


继续 探究 语 料 和 文档 词 -项 矩阵 ， 现 在 先 了 解 将 文本 转换 为 整洁 格式 的 基础 知识 。 


unnest tokens 函 数 


Emily Dickinson 写 了 一 些 可 爱 的 文字 。 





text <- c("Because I could not stop for Death -", 
"He kindly stopped for me -", 
"The Carriage held but just Ourselves -", 
"and Immortality") 


text 
## [1] "Because I could not stop for Death -" "He kindly stopped for me -" 
## [3] "The Carriage held but just Ourselves -" "and Immortality" 














这 是 一 个 我 们 可 能 想 要 分 析 的 典型 字符 向 量 。 为 了 将 其 变 成 一 个 整洁 文本 数据 集 ， 首 先 需要 将 其 放 入 一 个 数据 框 (data frame) 中 。 


library (dplyr) 
text df «- data frame(line = 1:4, text = text) 


text df 

## # A tibble: 4 x 2 

H line text 
##  <int> «chr» 
HI 3 Because I could not stop for Death - 
## 2 He kindly stopped for me - 
H3 $ The Carriage held but just Ourselves - 
## 4 4 and Immortality 





这 意味 着 数据 框 会 作为 一 个 tibble 输 出 ? tibble 是 R 中 新 的 数据 框 类 (class) ， 在 dplyr 和 tibble 包 中 有 效 ， 它 打印 方便 ， 不 会 将 字符 串 转换 为 元 素 ， 也 不 使 用 行 的 名 字 。tibble 能 很 好 地 支持 整洁 















































注意 这 种 包含 文本 的 数据 框架 与 整洁 文本 分 析 不 兼容 。 我 们 不 能 过 滤 频 繁 出 现 的 单词 或 计数 ， 因 为 每 行 都 由 多 个 组 合 的 单词 构成 。 为 了 得 到 每 个 文档 每 行 词 条 (one token per document per row) 
的 形式 ， 需 要 将 其 转换 为 数据 框架 。 











信 词 条 是 一 个 有 意义 的 文本 单元 ， 通 常 是 人 们 需要 进一步 分 析 的 单词 ， 词 条 化 是 将 文本 分 解 为 词 条 化 的 过 程 。 


在 第 一 个 例子 中 ， 只 有 一 个 文档 (一 首 诗 ) ， 但 接 下 来 就 会 研究 多 个 文档 的 例子 。 




















在 整洁 文本 框架 中 ， 需 要 将 文本 分 为 单个 的 词 条 ( 即 词 条 化 过 程 ) ， 并 将 其 转换 为 整洁 的 数据 结构 。 因 此 需要 使 用 tidytext 的 unnest_ tokens () 函数 。 














library (tidytext) 


text df %>% 


unnest tokens (word, text) 
## # A tibble: 20x2 


dH line word 
dH «int» «chr» 
## 1 i because 
#2 i 
## 3 1 could 
Ha 1 not 
H5 1 stop 
## 6 1 for 
HET k3 death 
## 8 2 he 
H9 2 kindly 
H 10 2 stopped 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 10 more rows 





unnest tokens 使 用 的 两 个 基本 参数 是 列 名 。 第 一 个 参数 为 输出 结果 的 列 名 ， 在 函数 执 


住 ， 上 面 的 text_df 有 一 个 名 为 text 的 列 ， 该 列 包含 了 需要 分 析 的 数据 。 














使 用 unnest tokens 后 ， 为 保证 新 数 拉 





“ 其 他 列 会 被 保留 ， 例 如 每 个 词 的 行 号 。 


“ 标点 符号 已 被 删除 。 


ATAJ, 


居 框 中 每 行 只 有 一 个 词 条 (word) ， 必 须 拆 分 每 行 ; unnest tokens () 函数 默认 是 对 单个 词 进行 词 条 化 ， 如 上 所 示 。 注 意 : 


“ 默认 情况 下 ，unnest_tokens () 将 词 条 转换 为 小 写 ， 这 使 其 更 容易 与 其 他 数据 集 进行 比较 或 组 合 ( 使 用 to_lower=FALSE 参 数 可 以 关闭 该 功能 ) 。 


























这 种 格式 的 文本 数据 可 以 使 用 标准 的 整洁 工具 集 来 操作 、 处 理 和 可 视 化 文本 ， 这 个 过 程 采 























的 工具 分 别 是 dplyr、tidyr 和 ggplot2 (如 图 1-1 所 示 ) 。 


文本 (在 这 种 情况 下 是 词 ) 还 没有 放 入 到 该 列 中 ; 第 二 个 参数 为 输入 列 (在 这 种 情况 下 为 文本 ) 。 请 记 








整理 Jane Austen 的 作品 


unnest_tokens 


tidytext 


图 1-1: 使 用 整洁 数据 原则 进行 文本 分 析 的 流程 


Sx 
see, 


dplyr, tidyr 


dplyr, tidyr 

















。 本 章 将 介绍 如 何 使 用 这 些 工 具 汇 总 和 可 视 化 文本 





janeaustenr (https://cran.r-project.org/package=janeaustenr) 包 中 有 Jane Austen 的 六 本 小 说 的 电子 文档 (Silge，2016) ， 在 研究 这 些 文 本 之 前 ， 将 这 些小 说 转换 成 整洁 格式 。janeaustenr 包 


能 提供 one-row-per-line 格 式 的 文本 ， 本 文中 的 一 行 类 似 了 


表达 式 ) 来 查找 所 


章节 的 位 置 。 











F 纸 制 书 中 的 一 行 。 这 里 会 使 









































mutate () 函数 来 得 到 一 个 新 的 linenumber， 它 保存 了 原始 数据 中 的 行 号 ， 使 用 关键 词 “chapter” (使 用 正则 








library (janeaustenr) 


library (dplyr) 


library (stringr) 


original books <- austen books() %>% 
group by (book) %>% z 
mutate (linenumber = row number(), 
chapter = cumsum(str detect(text, regex("^chapter [NM Wdivxlc]", 

u ignore case = TRUE)))) %>% 


ungroup () 


original books 


HE # A tibble: 73,422 x 4 








He text book linenumber chapter 

HW «chr» «fctr» «int» «int» 

iH 1 SENSE AND SENSIBILITY Sense & Sensibility 1 0 

H2 Sense & Sensibility 2 0 

H3 by Jane Austen Sense & Sensibility 9 0 

HA Sense & Sensibility 4 0 

H5 (1811) Sense & Sensibility 5. 0 

H6 Sense & Sensibility 6 0 

HT Sense & Sensibility 7 0 

H8 Sense & Sensibility 8 0 

Ho Sense & Sensibility 9 0 

## 10 CHAPTER 1 Sense & Sensibility 10 1 

## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 73,412 more rows 
要 将 其 作为 整洁 数据 集 ， 需 要 按 每 行 一 个 词 条 的 格式 进行 重 构 ， 正 如 之 前 undest tokens () 函数 所 做 的 那样 。 











library (tidytext) 
tidy books <- original books %>% 
unnest tokens (word, text) 


tidy books 

## # A tibble: 725,054 x 4 

dH book linenumber chapter word 
HW «fctr» «int» «int» «chr» 
## 1 Sense & Sensibility 1 0 sense 
## 2 Sense & Sensibility 1 0 and 
## 3 Sense & Sensibility t 0 sensibility 
## 4 Sense & Sensibility 3 0 by 
## 5 Sense & Sensibility 3 0 jane 
## 6 Sense & Sensibility 3 0 austen 
## 7 Sense & Sensibility 5 0 1811 
## 8 Sense & Sensibility 10 1 chapter 
## 9 Sense & Sensibility 10 1 t 
## 10 Sense & Sensibility 13 the 


1 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 725,044 more rows 











该 函数 使 用 tokenizers (https;//github.com/ropensci/tokenizers) 包 将 原始 数据 框 中 的 每 一 行文 本 分 成 词 条 。 默 认 的 词 条 化 操作 是 对 单词 进行 操作 ， 也 可 以 使 














子 、 行 、 段 落 或 基于 正则 表达 式 的 分 词 。 


现在 数据 已 经 是 每 行 一 个 词 的 格式 ， 可 以 


By "the" "of" 











“to” 等 词 。 可 以 








anti jo 

















in () 来 去 掉 停 




































































其 他 选项 ， 例 如 字符 、n-gram、 和 名 





清洁 工具 如 dplyr 来 进行 操作 。 通 常 在 文本 分 析 中 ， 希 望 删除 停 用 词 ， 这 些 都 是 对 分 析 无 用 的 单词 ， 但 却 又 是 非常 见 的 单词 ， 例 如 在 英语 中 
词 ， 这 些 停 用 词 保存 在 整洁 文本 数据 集 stop_words 中 。 





data(stop words) 


tidy books <- tidy books %>% 
anti join(stop words) 





tidytext 包 中 的 stop_words 数 据 集 包含 三 个 词典 中 的 停 

















词 ， 这 些 词典 都 可 以 使 





























。 根 


些 分 析 场 景 的 需要 ， 可 通过 filter () 来 过 滤 一 组 停 








5] 








词 。 











还 可 以 使 用 dplyr 的 count () 函数 来 查找 书 中 最 常见 的 单词 。 














tidy books %>% 


count(word, sort = TRUE) 
## # A tibble: 13,914 x 2 


dH word 


Hu «chr» «i 
## 1 miss 1 
## 2 time 1 
## 3 fanny 
## 4 dear 
## 5 lady 
H6 sir 
H7 day 
## 8 emma 
## 9 sister 
## 10 house 


n 
nt> 
855 
337 
862 
822 
817 
806 
797 
787 
721 
699 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 13,904 more rows 



































由 于 使 用 整洁 工具 ， 单 词 数 会 存储 在 整洁 数据 框 中 。 这 使 得 人 们 可 将 结果 直接 传递 给 ggplot2 包 ， 例 如 可 视 化 最 常见 单词 ( 见 图 1-2) 。 


miss 


time 


fanny 


dear 


lady 


SIT 


day 


emma 


sister 


house 


elizabeth 


elinor 


hope 


e 


en 
e 
e 
— 
e 
e 
e 


1500 


图 1-2: Jane Austen 小 说 中 最 常见 的 单词 





library (ggplot2) 


tidy books %>% 


count (word, sort = TRUE) %>% 


filter(n > 600) 


mutate (word = reorder 
ggplot (aes (word, n)) 


geom col() + 


xlab (NULL) + 
coord flip() 


2>% 


二 一 


word, n)) 


2>% 








HER, austen books () 函数 以 想 要 分 析 的 文本 名 开头 ， 但 在 其 他 情况 下 ， 可 能 需要 清除 文本 数据 ， 例 如 删除 版 权 标题 或 格式 。 在 案例 研究 章节 中 能 够 看 到 这 种 预 处 理 的 示例 ， 特 别 是 第 9 章 的 “ 预 处 


hi 
D 





n + 
CB. 


gutenbergr& 








现在 使 用 aneaustenr 软 件 包 来 研究 整洁 文本 ， 先 来 介绍 一 下 gutenbergr 软 件 包 (Robinson, 2016) 。gutenbergr 软 件 包 可 通过 Project Gutenberg 集 来 访问 公共 领域 作品 。 该 软件 包 包括 下 载 书籍 























使 用 (去除 无 用 的 页 眉 / 页 脚 信息 ) 的 工 























， 以 及 可 用 于 查找 / 


eM: 
[RS 


趣 作 品 的 完整 的 Project Gutenberg 元 数据 集 。 本 书 将 通过 ID 从 Project Gutenberg 下 载 一 个 或 多 个 作品 ， 这 主要 是 通过 


gutenberg download () 函数 来 完成 的 ， 也 可 以 使 




















全 要 了 解 有 关 gutenbergr 的 更 多 信息 ， 请 查看 rOpensci 的 软件 包 教程 ，gutenbergr 是 其 中 一 种 有 


词 频 


of Doctor Moreau》。 可 以 使 




















其 他 函数 来 获取 元 数据 ， 如 标题 、 作 者 、 语 言 等 Gutenberg ID 对 ， 或 收集 关于 作者 的 信息 。 


rOpensci 访 问 数据 的 软件 包 。 











文本 挖掘 的 一 个 常见 任务 是 查看 词 频 ， 并 比较 不 同文 本 的 频率 ， 就 像 对 Jane Austen 的 小 说 所 做 的 那样 。 可 使 用 整洁 数据 原则 来 直观 、 顺 利 地 进行 该 操作 。 上 述 已 经 对 Jane Austen 的 作品 进行 了 分 析 ， 
再 增加 两 个 文本 集 来 进行 比较 。 首 先 ， 来 看 看 19 世 纪 未 和 20 世 纪 初 H.G.Wells 的 一 些 科 幻 小 说 和 幻想 小 说 ， 比 如 《The Time Machine) (War of the Worlds) (The Invisible Man》 以 及 《The Island 

















gutenberg download () 以 及 每 个 小 说 的 Project Gutenberg ID 来 得 到 这 些 作品 。 











library (gutenbergr) 


hgwells «- gutenberg download(c(35, 36, 5230, 159)) 
tidy hgwells <- hgwells %>% 

unnest tokens(word, text) %>% 

anti join(stop words) 





下 面 来 看 看 这 些小 说 中 最 常见 的 词 是 什么 。 





tidy hgwells %>% 
count(word, sort = TRUE) 
## # A tibble: 11,769 x 2 


H word n 
+E <chr> <int> 
Hl time 454 
## 2 people 302 
H3 door 260 
## 4 heard 249 
## 5 black 232 
## 6 stood 229 
## 7 white 222 
## 8 hand 218 
# 9 kemp 213 
## 10 eyes 210 
Hog 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 11,759 more rows 





现在 来 看 一 些 BIOn{S 姐 妹 的 著名 作品 ， 她 们 所 生活 的 年 代 与 Jjane Austen 有 些 重合 ， 但 写作 风格 却 大 不 相同 。 这 
《Villette》 和 《Agnes Gray》。 再 次 使 用 每 个 小 说 的 Gutenberg ID， 并 使 


























里 需要 获取 《Jane Eyre》《Wuthering Heights》《The Tenant of Wildfell Hall》 


gutenberg_download () 来 下 载 这 些小 说 对 应 的 文本 。 





bronte «- gutenberg download(c(1260, 768, 969, 9182, 767)) 
tidy bronte <- bronte %>% 

unnest tokens(word, text) %>% 

anti join(stop words) 





下 面 看 看 这 些小 说 中 最 常见 的 词 是 什么 。 





tidy bronte %>% 
count(word, sort = TRUE) 
## # A tibble: 23,051 x 2 





HW word n 

HW «chr» «int» 

Hl time 1065 

#2 miss 855 

H3 day 827 

## 4 hand 768 

## 5 eyes 713 

H6 night 647 

## 7 heart 638 

## 8 looked 602 

## 9 door 592 

## 10 half 586 

## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 23,041 more rows 
有 趣 的 是 ，“ 时 间 ” “眼睛 ”和 “ 手 ”在 H.G.Wells 和 也 roDt 姐 妹 作品 中 是 最 常见 的 单词 。 





现在 将 数据 框 合并 在 一 起 ， 然 后 计算 Jane Austen、 姐 妹 和 H.G.Wells 作 品 中 每 个 单词 的 频率 。 为 了 绘 












































及 比较 这 三 组 小 说 集 ， 仅 仅 需要 使 用 tidyr 的 spread 和 gather 函数 来 重 构 数据 框 。 





library (tidyr) 


frequency <- bind rows (mutate (tidy bronte, author = "Bront?Sisters"), 
mutate(tidy hgwells, author = "H.G. Wells"), 
mutate (tidy books, author = "Jane Austen")) %>% 
mutate (word = str extract(word, "[a-z']*")) %>% 


count (author, word) $»5$ 

group by(author) %>% 

mutate (proportion = n / sum(n)) $»$ 

select(-n) %>% 

spread (author, proportion) %>% 

gather (author, proportion, `Bront?Sisters`:`H.G. Wells`) 





由 于 Project Gutenberg 中 UTF-8 编 码 的 文本 有 一 些 单词 会 有 有 下划线， 这 是 为 了 强调 该 单词 ( 像 斜 体 那样 ) ， 因 


不 想 在 初始 数据 分 析 中 对 “any” 与 “any” 分 别 计数 。 





现在 开始 画图 ( 见 图 1-3) . 

















library (scales) 


# expect a warning about rows with missing values being removed 
ggplot(frequency, aes(x = proportion, y = "Jane Austen', 
color = abs(^Jane Austen! ~ proportion))) + 
geom abline(color = "gray40", lty = 2) 十 
geom jitter (alpha = 0.1, size = 2.5, width 
geom text(aes(label = word), check overlap 
Scale x log10 (labels = percent format()) + 
scale y 1og10 (labels = percent format()) + 
scale color gradient(limits = c(0, 0.001), 
B B low = "darkslategray4", high = "gray75") 十 
facet wrap(-author, ncol = 2) 十 
theme (legend.position-"none") + 
labs (y = "Jane Austen", x = NULL) 


0.3, height 
TRUE, vjust 



































此 这 里 使 用 str_extract () 函数 。 词 条 化 时 将 其 视 为 单词 ， 但 是 在 使 用 str_extract () 之 





在 这 些 图 中 接近 直线 的 词 在 两 组 文本 中 具有 相似 的 频率 ， 例 如 在 Austen 和 卫 TOD 亿 的 文本 中 ( "miss" “time” 和 “day” 在 高 频 端 ) ， 或 者 在 Austen 和 Wells 的 文本 中 
( "time" “day” 1 "brother" BIH) 。 远 高 直线 的 词 表示 该 词 在 某 组 文本 中 比 另 一 组 文本 中 出 现 的 次 数 更 多 。 例 如 ， 在 Austen- 了 IODntE 中 ，Austen 的 文本 中 出 现 了 





像 "elizabeth”“emma” 和 “fanny” (所 有 专 有 名 词 ) 这 样 的 词语 ,但 在 Bronte 文 本 中 却 不 多 , 而 在 Bronte 文 本 中 存在 “arthur” 和 “dog”， 但 在 Austen 文 本 中 则 没有 。 将 H.G.Wells 的 小 说 与 


Jane Austen 的 小 说 进行 比较 时 ，Wells 使 用 了 “beast” “guns”“feet” 和 “black”， 但 Austen 没 有 使 用 ，Austen 使 用 了 “family”“friend” “letter”“dear”， 但 这 些 词 Wells 不 会 使 用 。 
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0.01% 1.00% 0.01% 1.00? 
图 1-3: 比较 Jane Austen. Bronte 姐妹 和 H.G.Wells 作 品 的 词 频 


从 图 1-3 可 看 出 Austen 与 BTODtS 的 单词 比 Austen 与 Wells 的 更 接近 直线 。 还 要 注意 ， 这 些 词 在 Austen 与 BIOntS 的 比较 中 延伸 到 较 低频 率 ， 而 Austen 与 Wells 的 比较 中 空白 空间 很 低 。 这 些 特 征 表 





明 ，Austen 和 Bronté 姐 妹 使 用 的 词 比 Austen 和 H.G.Wells 更 多 。 另 外 还 可 以 看 到 并 不 是 所 有 的 词 都 在 三 组 文本 中 ， 而 在 Austen 与 H.G.Wells 的 比较 中 数据 点 数 较 少 。 


使 用 相关 性 测试 来 量化 这 些 词 频 集 的 相似 程度 和 不 同 程度 。Austen 和 卫 TODt 姐 妹 之 间 以 及 Austen 和 Wells 之 间 的 词 频 有 多 少 相关 性 呢 ? 





cor.test (data = frequency [frequency$author == "Bront?Sisters",], 

: ^ proportion + "Jane Austen') 

# 

## Pearson's product-moment correlation 

dH 

## data: proportion and Jane Austen 

## t = 119.64, df = 10404, p-value < 2.2e-16 

## alternative hypothesis: true correlation is not equal to 0 

## 95 percent confidence interval: 

## 0.7527837 0.7689611 

## sample estimates: 

HW cor 

## 0.7609907 

cor.test (data = frequency [£requencySauthor == "H.G. Wells",], 
^ proportion + "Jane Austen`) 

dH 


## Pearson's product-moment correlation 

HW 

## data: proportion and Jane Austen 

## t = 36.441, df = 6053, p-value < 2.2e-16 

## alternative hypothesis: true correlation is not equal to 0 
## 95 percent confidence interval: 

##  0.4032820 0.4446006 

## sample estimates: 


HW cor 
## 0.424162 





正如 在 图 1-3 中 看 到 的 那样 ，Austen 和 也 TODtS 小 说 之 间 的 词 频 比 Austen 和 H.G.Wells 之 间 更 为 相关 。 





总 结 


本 章 讨论 了 整洁 数据 对 文本 分 析 的 意义 ， 以 及 如 何 将 整洁 数据 原则 应 用 于 自然 语言 处 理 。 当 采用 每 行 一 个 词 条 的 形式 组 织 文本 时 ， 诸 如 删除 停 用 词 或 计算 单词 频率 等 任务 是 整洁 工具 生态 系统 必需 的 操 


作 。 每 行 一 个 词 条 框架 可 以 从 单个 单词 扩展 到 n-gram 和 其 他 有 意义 的 文本 单元 ， 本 书 还 会 介绍 其 他 的 文本 分 析 方 法 。 


第 2 章 ”基于 整洁 数据 的 情感 分 析 


上 一 章 深入 介绍 了 整洁 文本 的 格式 ， 并 介绍 了 如 何 利用 这 种 格式 处 理 与 词 频 相关 的 问题 。 词 频 可 以 使 我 们 了 解 文档 中 有 哪些 单词 最 常用 ， 并 对 多 个 文档 进行 比较 。 本 章 将 研究 一 个 新 主题 一 一 舆论 挖掘 








或 情感 分 析 。 当 读者 阅读 文章 时 ， 会 根据 对 词语 情感 意图 的 理解 ， 或 者 其 他 一 些 更 细微 的 情感 ， 如 惊奇 或 厌恶 来 推断 文本 段落 是 积极 的 还 是 消极 的 。 可 以 使 用 文本 挖掘 工具 来 处 理 文本 的 情感 内 容 ， 如 图 2-1 


所 示 。 
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图 2-1: 使 用 整洁 文本 进行 情感 分 析 的 流程 图 。 本 章 将 介绍 如 何 使 用 整洁 数据 原则 来 实现 情感 分 析 

















将 文本 当成 单个 词 的 组 合 ， 将 单词 情感 内 容 的 总 和 作为 整个 文本 的 情感 内 容 ， 是 分 析 文本 情感 的 一 种 方法 。 这 并 不 是 实现 情感 分 析 的 唯一 方法 ， 但 却 是 一 种 经 常 使 用 的 方法 ， 这 种 方法 的 优势 是 可 以 利 














整洁 工具 生态 系统 。 





情感 数据 集 

















如 上 所 述 ， 已 经 有 许多 用 于 评估 文本 熏 论 或 情感 的 方法 和 词典 (lexicon) 。tidytext 包 的 sentiment 数 据 集 就 包含 了 多 个 情感 词典 。 








library (tidytext) 


sentiments 

## # A tibble: 27,314 x 4 

Hr word sentiment lexicon score 
HW «chr» «chr» «chr» «int» 
Hl abacus trust nrc NA 
H2 abandon fear nrc NA 
H3 abandon negative nrc NA 
## 4 abandon sadness nrc NA 
H5 abandoned anger nrc NA 
H6 abandoned fear nrc NA 
#7 abandoned negative nrc NA 
## 8 abandoned sadness nrc NA 
## 9 abandonment anger nrc NA 
## 10 abandonment fear nrc NA 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 27,304 more rows 








三 个 通用 的 词典 是 : 








- 来 自 Finn 来 自 Finn Arup Nielsen 的 AFINN 


“来自 Bing Liu 及 合作 者 collaborators 的 Bing 


来自 Saiff Mohammad 和 Peter Turney 的 NRC 


这 三 个 词典 都 是 基于 单个 词 的 。 这 些 词典 包含 许多 英文 单词 ， 会 对 正 / 负 情感 以 及 开心 (oy) . fA (anger) 、 难 受 (sadness) 等 情感 单词 计数 。NRC 词 典 会 按 二 进 制 ( "yes" / "no" ) 形式 将 重 
词 分 为 positive、negative、anger、anticipate、disgust、fear、joy、sadness、surprise 和 trust 类 别 。Bing 词 典 按 二 进 制 方式 将 单词 分 为 正 、 负 两 类 。AFINN 词 典 的 分 数 范 有 
示 负 面 情 感 ， 正 数 表示 正面 情感 。 所 有 这 些 信息 都 在 sentiments 数 据 集中 列 出 ， 并 且 tidytext 还 提供 了 get_sentiments () 函数 来 获取 没有 列 的 特定 情感 词典 ， 这 些 列 不 会 在 词典 中 使 用 。 





Tk 




















在 -5 至 5 之 间 ， 其 中 负数 表 





























get sentiments ("afinn") 
## # A tibble: 2,476 x 2 


HW word score 
Hr «chr» «int» 
HI abandon -2 
## 2 | abandoned -2 
H3 abandons -2 
## 4 abducted -2 
## 5 abduction -2 
## 6 abductions -2 
HT abhor -3 
## 8 abhorred -3 
## 9 abhorrent -3 
## 10 abhors -3 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,466 more rows 


get sentiments ("bing") 


## # A tibble: 6,788 x 2 


H word sentiment 
HW <chr> <chr> 
HI 2-faced negative 
H2 2-faces negative 
H3 at positive 
dA abnormal negative 
## 5 abolish negative 
## 6 abominable negative 
## 7 abominably negative 
## 8 abominate negative 


## 9 abomination negative 
## 10 abort negative 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 6,778 more rows 


get sentiments ("nrc") 


## # A tibble: 13,901 x 2 


dH word sentiment 
HW «chr» «chr» 
Hl abacus trust 
H2 abandon fear 


H3 abandon negative 


HA abandon sadness 
H5 abandoned anger 
H6 abandoned fear 
HT abandoned negative 
## 8 abandoned sadness 
## 9 abandonment anger 


## 10 abandonment 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/.. 


. with 13,891 more rows 





这 些 情感 词典 的 内 容 是 如 何 








必 集 和 验证 的 呢 ? 答案 是 通过 众 包 (例如 Amazon Mechanical Turk) 或 由 作者 先 手动 构建 ，F 














犹豫 是 否 可 以 将 这 些 情感 词典 应 














于 与 构建 该 词典 的 文本 风格 不 同 的 文本 上 ， 例 如 应 














词典 可 能 会 得 到 不 太 准 确 的 结果 ， 但 仍然 可 以 使 











还 可 以 使 














从 这 种 














然而 并 不 是 每 个 英文 单词 都 在 词典 中 ， 























一 些 专 为 分 析 特 定 内 容 领域 的 文本 而 构建 的 特定 情感 词典 。 在 第 5 章 的 “示例 : 挖掘 金融 文 














词典 和 文本 共享 的 词 来 度量 情感 内 容 。 


到 200 年 前 的 叙事 小 说 上 。 虽 然 在 这 类 文本 ( 


使 









































于 词典 的 方法 会 将 文本 中 每 个 单词 的 情感 分 数 相 加 来 得 到 一 段 文本 的 情感 。 

















分 析 的 扩展 示例 请 参见 第 9 章 。 





最 后 会 将 单词 的 情感 分 数 相 加 ， 





内 连接 的 情感 分 析 


”一 节 中 会 介绍 如 何 使 





专门 的 金融 情感 词典 来 进行 分 析 。 












































通过 使 





来 看 一 下 NRC 词 汇 表 中 与 快乐 有 关 单词 的 分 数 。 在 《 爱 玛 》 中 ， 
Jane Austen 的 作品 ”一 节 中 所 做 的 那样 ， 设 


library (janeaustenr) 
library (dplyr) 
library (stringr) 


整洁 格式 的 数据 ， 情 感 分 析 可 以 进行 内 连接 操作 。 这 是 将 文本 挖掘 当 作 整 洁 数 据 分 析 任 务 的 另 一 个 


因此 文字 块 大 小 会 对 分 析 结果 产生 影响 。 将 有 多 个 段落 的 文本 的 正面 情感 和 负面 情感 的 分 数 相 加 后 经 常会 接近 0， 而 使 
























































来 表达 快乐 的 最 常见 单词 是 什么 ”首先 ， 需 要 使 
他 列 来 记录 每 个 单词 在 书 中 的 行 号 和 章节 号 ， 















































tidy books <- austen books() %>% 


i» 


group by (book) 


mutate (linenumber = row number(), 


chapter = cumsum(str detect(text, regex("^chapter [Wdivxlc 


b>% 


ungroup () 





ignore_case = TRUE)))) %>% 


unnest_tokens (word, text) 


请 注意 ， 为 方便 起 见 ， 这 里 将 unnest_tokens () 函数 输出 的 列 命名 为 word， 因 为 情感 词典 和 停止 词 数据 集 的 列 向 量 也 命名 为 word， 这 样 执行 内 连接 和 


现在 ， 文 本 已 经 是 每 行 一 个 词 条 的 格式 ， 可 以 进行 情感 分 析 了 。 首 先 ， 使 









































inner join () 进行 情感 分 析 。 在 《 爱 玛 》 中 关于 欢乐 的 最 常见 词 是 什么 ”可 以 通过 dplyr 中 的 count () 函数 来 看 一 看 。 


nrcjoy <- get sentiments ("nrc") %>% 
filter (sentiment == "joy") 


tidy books $»$ 


filter(book — "Emma" 


) 


inner join(nrcjoy) %>% 


i5 


NRC 词 典 以 及 filter () KARAF "XX" BUB 


小 说 的 文本 ， 并 使 
这 里 使 用 group_by 和 mutate 来 构建 这 些 列 。 


Rig]. 





count(word, sort - TRUE) 

## 4$ A tibble: 303 x 2 

H word n 

dH «chr» «int» 

## 1 good 359 

## 2 young 192 

## 3 friend 166 

## 4 hope 143 

H5 happy 125 

H6 love 117 

## 7 deal 92 

## 8 found 92 

## 9 present 89 

## 10 kind 82 

## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


这 里 可 以 看 到 许多 关于 希望 、 友 谊 和 爱情 的 积极 、 快 乐 的 词 。 








还 可 以 查看 每 篇 小 说 的 情感 变化 ， 通 过 使 


接 下 来 ， 计 算 每 本 书 指定 段落 包括 多 少 得 分 为 正 的 词 和 得 分 为 负 的 词 。 这 里 定义 一 个 index 来 跟踪 单词 出 现在 文本 中 的 位 置 ，index (使 





























dplyr 包 提供 的 主要 功能 ， 利 








几 行 代码 就 可 实现 。 首 先 ， 使 























人 sk/% 运 算 符 执行 整数 除法 (x%/%y 相 当 于 floor (x/y) ) ， 因 此 index 会 跟踪 正在 进行 负数 和 正 数 情感 计数 的 80 行 文本 。 














文字 少 的 章节 可 能 没有 足够 的 单词 来 进行 准确 估计 ， 而 长 篇 大 论 又 可 能 会 破坏 叙事 结构 。 对 于 这 些 书 而 言 ， 使 


spread () 方法 对 各 列 进行 负 


library (tidyr) 












































H 





情感 和 正面 情感 计算 ， 最 后 再 计算 净 情 感 分 数 (positive-negative) . 








janeaustensentiment <- tidy books %>% 


inner join(get sentiments ("bing")) %>% 


count(book, index = linenumber 
spread (sentiment, n, fill = 0) $5$ 


2>% 


80, sentiment) 





mutate (sentiment = positive - negative) 











现在 可 以 绘制 每 篇 小 说 的 情感 分 数 轨迹 图 。 请 注意 ， 这 里 以 跟踪 文本 章节 的 index 变 量 作为 x 轴 进行 绘制 ( 见 图 2-2) . 


library (ggplot2) 























ggplot(janeaustensentiment, aes (index, sentiment, fill = book)) + 
geom col(show.legend = FALSE) + 


Bing 词 典 和 inner join () 函数 为 每 个 和 


























众 包 、 电 影评 论 或 Twitter 数据 进行 构建 。 对 于 给 定 的 文本 ， 人 们 可 能 会 
比如 Jane Austen 的 小 说 而 不 是 由 当代 作家 发 出 的 推 文 ) 上 使 用 这 些 情 感 





为 很 多 英文 单词 都 是 中 性 的 。 另 外 还 需 注意 ， 这 些 方法 没有 考虑 到 单词 的 修饰 语 (qualifier) ， 例 如 “not good” BÈ “not true”， 像 这 样 基于 词典 的 方法 仅 
考虑 了 单个 词 。 对 于 许多 文本 (如 下 面 的 叙述 性 例子 ) ， 没 有 持续 的 讽刺 或 否定 的 文本 ， 所 以 不 会 产生 重要 的 影响 。 此 外 ， 还 可 以 使 





整洁 文本 方法 来 了 解 在 给 定 文本 中 什么 样 的 否定 词 很 重要 ， 有 关 此 类 





句子 或 单个 段落 来 进行 情感 分 析 效 果 通 常会 更 


巨大 的 成 功 ， 若 将 删除 停止 词 当成 反 连 接 操 作 ， 那 么 情感 分 析 可 看 成 一 个 内 连接 操作 。 


unnest tokens () 将 文本 转换 成 整洁 格式 ， 就 像 第 1 章 的 “ 整 














反 连 接 也 会 更 容易 。 











接 下 来 ， 使 用 filter () 对 来 














with 293 more rows 























80 行 文本 比较 合适 ， 但 这 可 能 要 因 文 本 而 异 ， 比 如 ， 文 本 从 何 处 开始 等 。 接 下 来 使 





《 爱 玛 》 的 数据 框 进行 过 滤 ， 然 后 使 


ha 词 计算 情感 分 数 。 


整除 法 ) 对 每 80 行 文本 进行 统计 。 









































facet wrap(-book, ncol = 2, scales = "free x") 
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图 2-2: Jane Austen 小 说 的 情感 


通过 图 2-2 可 以 看 到 每 篇 小 说 的 情节 如 何在 叙述 过 程 中 向 着 更 积极 或 更 消极 的 情感 变化 。 


比较 三 个 情感 词典 


由 于 有 多 种 情感 词典 可 供 选择 ， 所 以 需要 一 些 信息 来 确定 哪 种 词典 更 能 满足 需求 。 现 在 利用 这 三 种 情感 词典 来 查看 在 《傲慢 与 偏见 》 一 书 中 情感 是 如 何 随 故 事 脉络 发 生变 化 的 。 首 先 使 用 fitter () 来 选 
择 感 兴趣 小 说 中 的 文本 。 





pride prejudice <- tidy books %>% 


filter(book 一 "Pride & Prejudice") 

pride prejudice 

## # A tibble: 122,204 x 4 

# book linenumber chapter word 
HE «fctr» «int» «int» «chr» 
## 1 Pride & Prejudice 1 0 pride 
## 2 Pride & Prejudice 1 0 and 
## 3 Pride & Prejudice 1 0 prejudice 
## 4 Pride & Prejudice 3 0 by 
## 5 Pride & Prejudice 3 0 jane 
## 6 Pride & Prejudice 3 0 austen 


## 7 Pride & Prejudice 7 1 chapter 
## 8 Pride & Prejudice 7 1 1 
## 9 Pride & Prejudice 10 1 it 
## 10 Pride & Prejudice 10 1 is 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 122,194 more rows 





现在 ， 可 以 利用 inner join () 按 不 同 的 方式 进行 情感 计算 。 


尽 前 面 曾 介绍 过 AFINN 词 典 采用 -5 到 5 之 间 的 数字 来 度量 情感 而 另外 两 种 词典 以 二 进 制 的 方式 进行 度量 ， 并 将 单词 的 情感 分 为 正 、 负 两 种 。 为 了 在 整 篇 小 说 大 量 的 文字 中 得 到 情感 分 数 ， 需 要 使 用 
AFINN 词 典 中 的 区 分 模式 ， 而 不 是 另外 两 种 词典 的 模式 。 


再 次 使 用 整除 法 (70/90) 来 定义 跨行 更 多 的 大 章节 文本 ， 可 以 使 用 与 count () . spread () 和 mutate () 相同 的 模式 来 查找 这 些 节 中 每 行文 本 的 净 情 感 值 。 





afinn <- pride prejudice %>% 
inner join (get_sentiments ("afinn")) %>% 
group by (index = linenumber $/$ 80) %>% 
summarise (sentiment = sum(score)) %>% 
mutate (method = "AFINN") 


bing and nrc <- bind rows ( 
pride prejudice %>% 
inner join(get sentiments ("bing")) %>% 
mutate (method = "Bing et al."), 
pride prejudice %>% 
inner join(get sentiments ("nrc") %>% 
filter(sentiment $in$ c("positive", 
"negative"))) %>% 
mutate (method = "NRC")) %>% 
count (method, index = linenumber %/% 80, sentiment) %>% 
spread (sentiment, n, fill = 0) %>% 
mutate (sentiment = positive - negative) 





现在 基于 每 个 情感 词典 的 净 情 感 值 估 计 小 说 的 每 块 文本 ， 并 把 这 些 估计 综合 起 来 ， 通 过 图 2-3 进 行 展示 。 








bind rows (afinn, 
bing and nrc) %>% 
ggplot(aes(index, sentiment, fill = method)) 十 
geom col(show.legend = FALSE) 十 
facet wrap(-method, ncol - 1, scales - "free y") 
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图 2-3: 使 用 小 说 《傲慢 与 偏见 》 来 比较 三 个 词典 


得 到 三 种 不 同 词典 计算 小 说 情感 的 结果 ， 从 绝对 意义 上 讲 这 些 结果 不 同 ， 但 也 有 相似 之 处 。 在 小 说 位 置 大 致 相同 的 地 方 可 以 看 到 情感 具有 类 似 的 低谷 和 高 峰 ， 但 是 高 峰 和 低谷 的 绝对 值 差别 很 大 。 
AFINN 词 典 给 出 了 最 大 绝对 值 ， 并 且 其 正 值 很 大 。Bing 等 词典 具有 较 低 的 绝对 值 ， 并 且 有 连续 为 正 或 连续 为 负 的 较 大 文本 块 。NRC 词 典 的 结果 相对 于 另外 两 种 词典 变化 较 大 ，NRC 对 文本 进行 了 更 为 正面 的 
标注 ， 但 也 检测 到 与 AFINN 和 Bing 相 似 的 相对 变化 。 基 于 这 些 词典 查看 其 他 小 说 时 ， 得 到 的 结果 也 类 似 ， 即 基于 NRC 的 情感 会 偏 高 ， 基 于 AFINN 的 情感 有 较 大 差异 ，Bing 对 相似 文本 的 情感 会 有 较 大 的 起 
伏 ， 但 是 这 三 种 词典 对 应 的 情感 曲线 在 总 的 变化 趋势 上 大 体 一 致 。 


为 什么 NRC 词 典 的 结果 与 Bing 等 词典 相 比 会 有 如 此 大 的 不 同 呢 ? 下 面 来 简单 看 看 这 些 词典 中 有 多 少 正面 单词 和 负面 单词 。 





get_sentiments ("nrc") $»$ 
filter(sentiment $in$ c("positive", 
"negative")) %>% 

count (sentiment) 

## # A tibble: 2 x 2 

## — sentiment n 

HW «chr» «int» 

## 1 negative 3324 

## 2 positive 2312 

get sentiments ("bing") $»$ 
count (sentiment) 

## # A tibble: 2 x 2 

## — sentiment n 

HW «chr» «int» 

## 1 negative 4782 

## 2 positive 2006 





两 个 词典 的 负面 词 都 多 于 正面 单词 ， 但 与 NRC 词 典 相 比 ，Bing 词 典 中 负面 单词 的 数目 与 正面 单词 数目 的 比率 会 更 高 。 这 便 会 产生 上 图 中 看 到 的 效果 。 在 词 匹配 中 会 有 系统 性 差异 ， 例 如 ，NRC 词 汇 中 的 
负面 单词 与 Jjane Austen 使 用 的 单词 不 匹配 。 但 是 无 论 这 些 差异 的 来 源 如 何 ， 都 可 以 看 到 相似 的 轨迹 ， 并 且 斜 率 的 变化 也 相似 ， 但 是 ， 词 典 之 间 的 绝对 情感 却 有 显著 不 同 。 这 是 在 选择 情感 词典 进行 分 析 时 
需要 牢记 的 地 方 。 





最 常见 的 正面 单词 和 负面 单词 


使 用 包括 sentiment 和 word 的 数据 框 的 优点 是 可 以 分 析 对 情感 做 出 贡献 的 单词 的 数量 。 将 word 和 sentiment 作 为 count () 方法 的 参数 就 可 以 看 出 每 个 单词 对 每 一 种 情感 的 贡献 情况 。 





bing word counts <- tidy books %>% 
inner join(get sentiments ("bing")) %>% 
count (word, sentiment, sort = TRUE) %>% 
ungroup () 


bing word counts 
## # A tibble: 2,585 x 3 


HW word sentiment n 
HW «chr» «chr» «int» 
HI miss negative 1855 
H2 well positive 1523 
## 3 good positive 1380 
## 4 great positive 981 
#5 like positive 725 
H6 better positive 639 
## 7 了 enough positive 613 
H8 happy positive 534 
## 9 love positive 495 


## 10 pleasure positive 462 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,575 more rows 




















这 可 以 通过 可 视 化 进行 展示 ， 由 于 本 书 一 直 使 用 为 处 理 整洁 数据 框 而 构建 的 工具 ， 因 此 这 里 的 处 理 结果 可 以 直接 传 给 ggplot2 来 绘图 ( 见 图 2-4) . 





bing word counts %>% 
group by(sentiment) $»$ 
top n(10) $>% 
ungroup() %>% 
mutate (word = reorder (word, n)) %>% 
ggplot (aes (word, n, fill = sentiment)) + 
geom col(show.legend = FALSE) + 


facet wrap(-sentiment, scales = "free y") + 
labs(y = "Contribution to sentiment", 
x = NULL) + 


coord flip() 
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图 2-4: Jane Austen 小 说 中 的 正面 情感 、 负 面 情感 的 单词 数 

















由 图 2-4 可 以 看 到 情感 分 析 中 的 异常 情况 : “miss” 这 个 词 被 程序 视 为 负面 的 ， 但 该 词 在 Jane Austen 的 小 说 中 却 是 对 年 轻 、 未 婚 女 士 的 称呼 。 如 果 这 与 我 们 的 应 用 场景 相似 ， 可 以 使 用 bind_rows () 
将 “miss” 添 加 到 自 定义 停 用 词 列表 中 。 具 体 的 实现 过 程 如 下 : 























custom stop words <- bind rows(data frame (word = c("miss"), 
lesi = e" 


stop words) 


ords 
EEE eTe 1,150 x 2 
He word lexicon 


dH chr» chr» 
Hl miss custom 

## 2 a SMART 

H3 a's SMART 

## 4 able SMART 

H5 about SMART 

H6 above SMART 

dH according SMART 

## 8 accor dingly SMART 

## 9 ss | SMART 

## 10 actually SMART 

## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 1,140 more rows 





Wordclouds 模 块 


























现在 可 以 看 到 整洁 文本 挖掘 方法 与 ggplot2 配 合 得 很 好 ， 而 且 整 洁 数据 格式 也 可 用 于 其 他 图 形 工具 。 





























例如 ， 下 面 通过 R 的 基本 绘图 包 wordcloud 来 可 视 化 Jane Austen 作 品 中 最 常见 的 单词 ， 这 次 以 图 2-5 中 单词 云 的 形式 展现 。 
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图 2-5: Jane Austen 作 品 中 最 常见 的 单词 


library (wordcloud) 


tidy boo oks 
E AN ords) $»$ 


count (word) $»$ 
with (wordcloud (word, n, max.words = 100) ) 











在 其 他 函数 中 ， 比 如 comparison.cloud () ， 可 能 需要 使 用 reshape2 的 acast () 函数 将 数据 框 转换 为 矩阵 形式 。 如 果 数 据 是 整洁 格式 ， 那 么 就 可 以 采 上 














和 负面 的 单词 。 在 将 数据 传递 给 comparison.cloud () 之 前 ， 上 述 操作 都 可 以 通过 联接 操作 、 管 道 操 作 以 及 dplyr 包 来 实现 。 





内 联接 的 方式 进行 情感 分 析 ， 进 而 标注 出 正 

















library (reshape2) 


tidy books %>% 
inner join(get sentiments ("bing")) %>% 
count (word, sentiment, sort = TRUE) $»$ 
acast(word ~ sentiment, value.var = "n", fill = 0) %>% 
comparison.cloud(colors - c("gray20", "gray80"), 
max.words = 100) 
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图 2-6: Jane Austen 作 品 中 最 常见 的 正面 单词 和 负面 单词 
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除 单词 外 的 其 他 文本 单元 














2-6 中 单词 的 大 小 与 该 词 在 其 对 应 情感 中 的 频率 成 正比 ， 可 以 使 用 这 种 可 视 化 方式 来 查看 最 重要 的 正面 单词 和 负面 单词 ， 但 在 情感 中 单词 的 大 小 没有 可 比 性 。 


许多 有 用 的 工作 可 以 通过 对 单词 词 条 化 来 实现 ， 但 有 时 需要 查看 不 同 的 文本 单元 。 例 如 ， 一 些 情感 分 析 算 法 不 只 是 针对 单个 单词 ， 而 是 试图 将 一 个 句子 当成 整体 来 理解 情感 。 这 些 算法 会 认为 “| am 



































not having a good day” 是 一 个 充满 塌 伤 的 句子 ， 而 不 是 一 个 快乐 的 句子 ， 因 为 句 中 有 和 否定 词 。R 包 中 的 coreNLP 包 (Arnold 和 Tilton，2016) ，cleanNLP 包 (Arnold, 2016) 以 及 sentimentr 包 























(Rinker, 2017) 都 属于 这 种 情感 分 析 算 法 。 这 些 包 希望 将 文本 词 条 化 为 句子 ， 在 这 种 情况 下 ， 对 输出 列 使 用 新 名 称 是 有 意义 的 。 

















PandP sentences <- data frame (text = prideprejudice) %>% 
unnest tokens (sentence, text, token = "sentences") 





来 看 一 下 结果 : 





PandP sentences$sentence [2] 

## [1] "however little known the feelings or views of such a man may be on his 
first entering a neighbourhood, this truth is so well fixed in the minds of 
the surrounding families, that he is considered the rightful property of some 
one or other of their daughters." 





对 于 UTF-8 编 码 的 文本 ， 词 条 化 成 句子 似乎 有 一 些 麻烦 ， 特 别 是 对 话 部 分 ， 按 标点 符号 的 ASCII 进 行 词 条 化 会 得 到 更 好 的 效果 。 如 果 非 要 词 条 化 成 句子 ， 其 中 的 一 种 方法 是 在 unnesting 之 前 ,在 mutate 











语句 中 使 














iconv () 函数 ， 比 如 iconv (text, to-'latin1') 。 


另 一 个 方式 是 在 unnest tokens () 中 使 用 正则 表达 式 进行 词 条 化 。 例 如 ， 在 将 Jane Austen 小 说 中 按 章 分 到 数据 框 时 就 可 以 这 样 做 。 


austen chapters <- austen books() %>% 


group by (book) 


$5 


unnest tokens (chapter, text, token = "regex", 
pattern = "Chapter|CHAPTER [\\dIVXLC]") %>% 


ungroup () 


austen chapters %>% 


group by (book) 3>% 
summarise (chapters = n()) 


## # A tibble: 6 x 2 

Hr book chapters 
HW «fctr» «int» 
## 1 Sense & Sensibility 51 
## 2 Pride & Prejudice 62 
## 3 Mansfield Park 49 
## 4 Emma 56 
H5 Northanger Abbey 32 
H6 Persuasion 25 








这 里 已 经 恢复 了 每 本 小 说 中 正确 的 章节 数 (为 每 个 小 说 的 标题 增加 “额外 的 














在 本 章 开头 曾 使 








如 : 


并 除 以 每 一 章 的 总 字数 ; 





类 似 正 则 表达 式 的 方式 来 查找 Jane Austen 小 说 中 所 有 章节 的 位 置 ， 并 将 结果 以 每 行 一 个 单词 
(1) Jane Austen 的 小 说 中 哪 一 章 最 负面 ? 首先 ， 从 Bing 词 典 中 得 到 否定 单词 的 列表 ; 然后 创建 一 个 记录 每 章 单词 数目 的 数 所 























(2) 对 每 本 书 而 言 ， 哪 一 


的 负 


面 单 词 比例 最 高 ? 








" f3) 。 在 austen_chapters 数 据 框 中 ， 每 行 对 应 一 章 。 





的 格式 组 织 到 整洁 数据 框 中 。 因 
居 框 ， 以 便 对 章节 长 度 进行 归 一 化 ;最 后 再 看 一 下 每 一 章 中 负面 单词 的 数 





此 ， 可 以 使 用 整洁 文本 分 析 的 方式 来 回答 一 些 问题 ， 比 

















bingnegative <- get sentiments("bing") %>% 
filter(sentiment -- "negative") 


wordcounts <- tidy books %>% 


group by(book, chapter) 


2>% 


summarize (words = n()) 


tidy books %>% 


semi join (bingnegative) 
group by(book, chapter) 


2>% 


2>% 


summarize (negativewords = n()) $»$ 


left join(wordcounts, by = c("book", 
mutate (ratio = negativewords/words) % 





filter (chapter !- 0) %>% 


top n(1) %>% 


chapter")) %>% 


ungroup () 

## # A tibble: 6 x 5 

dH book chapter negativewords words ratio 
HW <fctr> «int» «int» «int» «dbl» 
## 1 Sense & Sensibility 43 161 3405 0.04728341 
## 2 Pride & Prejudice 34 111 2104 0.05275665 
H3 Mansfield Park 46 173 3685 0.04694708 
## 4 Emma 15 151 3340 0.04520958 
## 5 Northanger Abbey 21 149 2982 0.04996647 
H6 Persuasion 4 62 1807 0.03431101 


该 结果 为 每 本 书 中 悲伤 词 最 多 的 章节 ， 
的 第 34 章 中 ，Darcy 先 生 首次 感到 非常 糟糕 ， 在 《 曼 斯 菲尔德 庄 


中 ，Catherine 深 深 陷入 在 自己 哥 特 式 谋杀 的 幻想 中 ; 在 《劝导 》 的 第 4 章 中 ， 当 Anny 拒 绝 Wentworth 船 长 时 ， 读 者 可 以 感受 到 Anny 有 多 难过 ，Anny 也 意识 到 了 自己 犯 了 多 么 可 怕 


情感 分 析 提供 了 一 种 理解 文本 所 要 表达 的 态度 和 观点 的 方法 。 本 章 探讨 了 如 何 使 


并 对 这 一 章 中 的 单词 


















































析 可 以 了 解 故 如 





脉络 在 整个 故 如 








文本 挖 握 和 自然 语言 处 理 的 核心 问题 是 如 何 量化 文档 内 
率 。 然 而 ， 文 档 中 有 一 些 单词 尽管 出 现 的 


中 是 如 何 变化 的 ， 或 者 对 于 特定 文本 而 言 ， 哪 些 情感 和 








》 的 第 46 章 (本 书 的 结 














洁 数据 准 则 来 进行 情感 分 析 ; SANCII 











意见 是 重要 的 。 在 本 书后 








第 3 章 


容 。 




















有 时 候 这 些 词 比 其 他 词 更 重 








。 使 








词 列 表 调 整 常 





停 











另 一 种 方法 是 查看 词 项 的 逆 文 档 频率 (idf，inverse document frequency) ， 即 减少 文档 集合 中 常 


量 相 乘 ) ， 如 果 单 词 在 一 篇 文档 中 出 现 的 频率 高 ， 并 且 在 其 他 文档 中 很 少 出 现 ， 则 需要 调整 词 项 频率 。 








频率 很 高 ， 但 可 能 并 不 重 


词 


"is" "of 





， 例 如 ， 英 语 中 的 “this” 
项 频率 的 方法 并 不 复杂 。 

















队 统 计量 tf-idf 可 以 





来 评估 单词 对 文档 集合 (或 语料库 ) 中 文档 的 














za 



































单词 的 权重 ， 并 增加 不 常 


数 进 行 了 归 一 化 。 这 些 章节 究竟 有 什么 样 的 内 容 呢 ? 在 《理智 与 情感 》 的 第 43 章 中 ，Marianne 病 得 很 严 
FE) 中 ， 大 家 知道 了 Henry 的 通奸 丑闻 ; 在 《 爱 玛 》 的 第 15 章 中 ，Elton 先 生 非 常 震惊 ， 在 《 诺 桑 觉 寺 》 的 第 21 章 





届 为 整洁 的 数据 结构 时 ， 情 感 分 析 可 以 通过 内 联接 的 方式 实现 。 使 
面 的 案例 研究 中 ， 还 会 给 出 适 


分 析 词 和 文件 频率 : tf-idf 


通过 查看 构成 文档 的 单词 可 以 做 到 这 一 点 吗 ? 正如 第 1 章 提 到 的 ， 一 科 
， 等 等 。 可 以 先 将 这 些 词 














， 濒 临 死 亡 ; 在 《傲慢 与 偏见 》 





的 错误 。 





























不 同类 型 文本 的 情感 分 析 工 具 箱 。 























度量 单词 重要 程度 的 指标 是 词 项 频率 (tf) ， 即 单词 在 文档 中 出 现 的 频 
添加 到 列表 中 ， 并 在 分 析 之 前 删除 这 些 词 ， 但 也 要 注意 ， 在 某 些 文档 中 









































单词 的 权重 。 反 转 文件 频率 可 以 与 词 频 进 行 组 合 ， 得 到 tf-idf (两 个 变 








要 性 ， 例 如 ， 小 说 集中 的 一 本 小 说 或 一 组 网 站 中 的 一 个 网 站 。 


统计 量 tf-idf 是 一 个 基于 经 验 或 启发 式 规则 的 量 ， 虽 然 该 方法 已 经 证 明 在 文本 挖 气 、 搜 索引 丈 等 方面 是 有 用 的 ， 但 信息 理论 专家 认为 这 种 方法 缺少 足够 的 、 令 人 信服 的 理论 基础 。 任 何 给 定单 词 的 逆 文档 


频率 的 定义 为 : 














可 以 使 








第 1 


提 到 的 整洁 数 








N documents 


idf (term)- In 





居 原 则 来 进行 tf-idf 分 析 ， 并 使 


M documents containing term 


























一 致 的 、 有 效 的 工具 来 量化 文档 集 的 某 个 文档 中 各 种 





词 的 重 








性 。 





Jane Austen 小 说 中 的 词 项 频率 






































先 来 看 看 Jane Austen 的 小 说 ， 首 先 计算 词 项 频率 ， 然 后 再 计算 tf-idf。 首 先 要 使 用 dplyr 包 中 的 方法 ， 比 如 group_by () 和 join () 。Jane Austen 小 说 中 最 常用 的 词 是 什么 ” (这 里 也 计算 了 每 本 小 说 
中 一 共有 多 少 词 ， 以 供 后 续 使 用 。) 

















library (dplyr) 
library (janeaustenr) 
library (tidytext) 


book words <- austen books() $» 
unnest tokens (word, text) %>% 
count (book, word, sort = TRUE) %>% 
ungroup() 


total words <- book words %>% 
group by(book) $25 
summarize(total = sum(n)) 


book words «- left join(book words, total words) 


book words 
## # A tibble: 40,379 x 4 


HH book word n total 
HW «fctr» «chr» «int» «int» 
Hl Mansfield Park the 6206 160460 
H2 Mansfield Park to 5475 160460 
H3 Mansfield Park and 5438 160460 
## 4 Emma to 5239 160996 
H5 Emma the 5201 160996 
## 6 Emma and 4896 160996 
HT Mansfield Park of 4778 160460 
## 8 Pride & Prejudice the 4331 122204 
H9 mma of 4291 160996 


## 10 Pride & Prejudice to 4162 122204 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 40,369 more rows 

















每 个 单词 与 小 说 的 组 合 在 数据 框 book_words 都 有 一 行 ，n 表 示 小 说 中 使 用 该 单词 的 次 数 ，total 表 示 该 小 说 中 单词 的 总 数 。 通 常 n 最 大 的 词 是 “the” "and" “to” 等 。 在 图 3-1 中 给 出 了 每 篇 小 说 
n/total 的 分 布 情况 : 用 小 说 中 某 单 词 出 现 的 次 数 除 以 该 小 说 的 总 词 数 计算 得 出 词 项 频率 。 









































library (ggplot2) 


ggplot (book words, aes(n/total, fill = book)) + 
geom histogram(show.legend = FALSE) + 


xlim(NA, 0.0009) 十 
facet wrap(-book, ncol = 2, scales = "free y") 





Senac & Sansibility 


Pride & Predico 














Northanger Abbey 





Persuasion 








图 3-1: Jane Austen 的 词 频 分 布 





这 些小 说 的 右 侧 有 长 尾 〈 这 是 非常 常见 的 ) ， 图 中 没有 画 出 来 。 从 这 些 图 








Zipf 定 律 


图 3-1 所 示 的 分 布 在 语言 学 中 很 典型 。 事 实 上 ， 这 些 类 型 的 长 尾 分 布 在 任何 给 定 的 自然 语言 语料库 〈 如 一 本 书 ， 或 许多 来 自 网 站 的 文本 等 ) 中 都 很 常见 ， 词 项 频率 及 其 排名 之 间 的 关系 已 经 作为 一 个 研究 
， 这 个 定律 是 根据 20 世 纪 美 国语 言 学 家 George Zipf 的 名 字 命 名 的 。 


方向 。 这 种 关系 的 一 个 经 典 版 本 被 称 为 Zipf 定 律 (Zipf s Law) 


人 zipf 定 律 规定 ， 一 个 词 出 现 的 频率 与 其 排名 成 反比 。 


既然 已 经 有 了 绘制 词 频 的 数据 框 ， 可 以 用 简单 的 dplyr 函 数 来 验证 Jane Austen 小 说 的 Zipf 定 律 。 





中 可 以 看 出 所 有 的 小 说 都 有 相似 的 分 布 ， 许 多 单词 几乎 不 会 出 现 ， 并 且 频 繁 出 现 的 单词 也 很 少 。 





freq by rank <- book words %>% 
group by(book) $»$ 
mutate (rank = row number(), 
"term frequency = n/total) 


freq by rank 
## Source: local data frame [40,379 x 6] 
## Groups: book [6] 


HW 

d book word n total rank "term frequency 
dH Xfctr» «chr» «int» «int» «int» «dbl» 
Hl Mansfield Park the 6206 160460 i 0.03867631 
H2 Mansfield Park to 5475 160460 2 0.03412065 
H3 Mansfield Park and 5438 160460 3 0.03389007 
## 4 to 5239 160996 1 0.03254118 
H5 Emma the 5201 160996 2 0.03230515 
## 6 Emma and 4896 160996 3 0.03041069 
## 7 Mansfield Park of 4778 160460 4 0.02977689 





## 8 Pride & Prejudice the 4331 122204 T 0.03544074 
## 9 Emma of 4291 160996 4 0.02665284 
## 10 Pride & Prejudice to 4162 122204 2 0.03405780 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 40,369 more rows 





由 rank 列 可 以 看 出 频率 表 中 每 个 单词 的 排名 ， 该 表 根据 n 值 进行 排序 ， 所 以 能 使 用 row_number () 来 查找 排名 。 然 后 可 以 用 与 之 前 相同 的 方式 来 计算 词 项 频率 。Zipf 定 律 通常 可 将 rank (HER) 列 作 
为 x 轴 ， 将 term frequency ( 词 项 词 频 ) 列 作为 y 轴 ， 按 对 数 尺度 来 绘制 图 形 。 从 绘制 的 图 形 中 可 以 看 到 比例 关系 是 恒定 的 ， 且 斜率 为 负 ( 见 图 3-2) 。 









































freq by rank $5$ 
ggplot(aes(rank, "term frequency, color = book)) + 
geom line(size = 1.1, alpha = 0.8, show.legend = FALSE) + 
scale x 1og10 () + 
scale y log10() 





请 注意 ， 图 3-2 的 是 对 数 坐标 。 可 以 看 到 ，Jane Austen 的 这 六 部 小 说 都 是 相似 的 ，rank 与 term frequency 的 关系 确实 呈 负 斜率 的 形式 ， 虽 然 不 是 常数 ， 但 可 以 把 该 图 看 作 三 段 ， 来 看 看 rank 列 的 中 间 
部 分 的 盐 指 数 定 香 











T 








图 3-2: Jane Austen 的 Zipf 定 律 





rank subset <- freq by rank %>% 
filter(rank « 500, 


rank » 10) 
lm(log10(^term frequency?) ~ log10 (rank), data = rank subset) 
HW 
## Call: 
## lm(formula = logl0 ("term frequency?) ~ 1og10 (rank), data = rank subset) 
HW 


## Coefficients: 
## (Intercept)  log10 (rank) 
He -0.6225 -1.1125 








经 典 版 本 的 Zipf 定 律 : 频率 ”m7， 事 实 上 ， 这 里 的 斜率 已 经 接近 -1 了 。 图 3-3 中 的 数据 绘制 了 这 个 经 过 拟 合 的 宕 定律 ， 











freq by rank 多 > 多 
ggplot(aes(rank, "term frequency', color = book)) + 
geom abline(intercept = -0.62, slope = -1.1, color = "gray50", linetype = 2) + 
geom line(size = 1.1, alpha = 0.8, show.legend = FALSE) + 
scale x 1og10 () + 
scale y 1og10 () 











图 3-3: 在 Jane Austen 小 说 拟 合 的 Zipf 


定律 指数 


由 图 3-3 可 以 看 到 在 Jane Austen 小 说 语料库 上 经 典 的 Zipf 定 律 。 在 许多 语言 中 ， 高 排名 的 偏差 并 不 罕见 ， 一 种 语言 的 语 料 中 通常 比 单个 申 定 律 预 测 的 罕见 词 要 少 。 低 排名 的 偏差 更 为 罕见 。Jane 











Austen 


说 所 使 用 的 最 常用 词 的 百分比 比 许多 语言 集合 都 低 。 这 种 分 析 可 以 扩 ; 


bind tf idf 函 数 


展 到 作者 之 间 的 比较 ， 或 比较 任何 其 他 文本 集合 ， 可 简 和 





a 地 使 用 整洁 数据 原则 来 实现 。 

















tf-idf| 
到 文本 中 


的 想法 是 通过 减少 常用 单词 的 权重 ， 并 增加 在 文档 集合 或 语料库 中 不 常见 单词 的 权 和 
要 ( 即 常见 ) 但 不 常见 的 单词 。 下 面 来 介绍 如 何 实现 这 一 目标 。 








来 找到 每 个 文档 中 的 





要 单词 ， 在 这 种 情况 下 ，Jane Austen 的 小 说 集 是 一 个 整体 。 计 算 tf-idf 的 目的 是 尝试 找 





tidytext 包 中 的 bind_tf idf 函 数 将 整洁 的 文本 数据 集 作 为 输入 ， 并 且 输 入 形式 为 每 行 一 个 词 条 。 一 列 包含 词 项 / 词 


条 (本 示例 中 为 word 列 ) ， 一 列 包 含 文档 〈 本 示例 中 为 book 列 ) ， 最 后 还 需要 有 一 个 


包含 计数 的 列 ， 或 每 个 文档 中 各 个 词 项 出 现 的 次 数 在 本 示例 中 为 n 列 ) 。 在 前 一 节 中 每 本 书 都 计算 了 total 列 ， 但 是 total 对 于 bind tf _idf 函 数 而 言 并 不 是 必须 的 ， 表 格 只 需要 包含 每 个 文档 中 的 所 有 单词 。 





book words <- book words $»$ 
bind tf idf(word, book, n) 
book words 
# A tibble: 40,379 x 7 
book word idf tf idf 


n total GE 


Lu «fctr» «chr» «int» «int» «dol» «dbl» «dbl» 
## 1 Mansfield Park the 6206 160460 0.03867631 0 0 
## 2 Mansfield Park to 5475 160460 0.03412065 0 0 
H3 Mansfield Park and 5438 160460 0.03389007 0 0 
## 4 Emma to 5239 160996 0.03254118 0 0 
H5 Emma the 5201 160996 0.03230515 0 0 
H6 Emma | and 4896 160996 0.03041069 0 0 
HET Mansfield Park of 4778 160460 0.02977689 0 0 
## 8 Pride & Prejudice the 4331 122204 0.03544074 0 0 
## 9 Emma of 4291 160996 0.02665284 0 0 
## 10 Pride & Prejudice to 4162 122204 0.03405780 0 0 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 40,369 more rows 





请 注意 ， 对 于 很 常见 的 单词 
(接近 零 ) ， 这 就 是 该 方法 减少 常用 单词 权重 





的 方式 。 若 文档 集中 的 文档 较 少 ， 则 单词 的 逆 文 档 频率 将 会 更 高 。 





来 看 看 Jane Austen 作 品 中 具有 高 tf-idf 值 的 单词 。 





，idf 和 tf-idf 为 零 ， 并 且 这 些 词 都 在 Jane Austen 的 六 部 小 说 中 出 现 过 ， 所 以 idf 项 (1 的 自然 对 数 ) 为 零 。 若 单词 在 许多 文档 中 都 出 现 过 ， 则 逆 文 档 频 率 (tf-idf) 会 非常 低 

















book words %>% 
select(-total) %>% 
arrange (desc(tf idf)) 


## # A tibble: 40,379 x 6 

d book word n tf idf tf idf 
dH «fctr» «chr» «int» «dbl» «dbl» Xdbl» 
## 1 Sense & Sensibility elinor 623 0.005193528 1.791759 0.009305552 
## 2 Sense & Sensibility marianne 492 0.004101470 1.791759 0.007348847 


H3 Mansfield Park crawford 493 0.003072417 1.791759 0.005505032 
## 4 Pride & Prejudice darcy 373 0.003052273 1.791759 0.005468939 
H5 Persuasion elliot 254 0.003036207 1.791759 0.005440153 
## 6 Emma emma 786 0.004882109 1.098612 0.005363545 
## 7 Northanger Abbey tilney 196 0.002519928 1.791759 0.004515105 
H8 Emma weston 389 0.002416209 1.791759 0.004329266 
## 9 Pride & Prejudice bennet 294 0.002405813 1.791759 0.004310639 
## 10 Persuasion wentworth 191 0.002283132 1.791759 0.004090824 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 40,369 more rows 








上 表 给 出 了 所 有 小 说 中 重要 的 专 有 名 词 、 名 字 ， 并 且 也 给 出 没有 在 所 有 作品 中 都 出 现 的 词 或 名 字 ， 这 些 词 对 于 Jane Austen 作 品 的 语 料 文本 而 言 都 是 重要 的 、 很 有 特色 的 词 。 





人 不同 词 项 的 idf 值 可 能 相同 ， 这 是 因为 语料库 中 有 六 个 文档 ， 导 致 如 In (6/1) . In (6/2) 等 计算 结果 的 出 现 。 


图 3-4 对 tf-idf 值 大 的 单词 进行 了 可 视 化 。 
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图 3-4: Jane Austen 作 品 中 具有 最 高 tfidf 的 单词 





book words $»$ 
arrange (desc (tf idf)) $»$ 
mutate (word = factor (word, levels = rev (unique (word)))) %>% 
group _by (book) $»$ 
top n(15) %>% 
ungroup $>% 
ggplot (aes (word, tf idf, fill = book)) + 
geom col(show.legend = FALSE) + 
labs(x = NULL, y = "tf-idf") + 
facet wrap(-book, ncol = 2, scales = "free") + 
coord flip() 














的 语言 





3-4 给 出 了 所 有 的 专 有 名 词 ! 这 些 词 是 通过 tf-idf 度 量 得 到 的 ， 对 每 部 小 说 而 言 ， 这 些 词 是 最 重要 的 ， 大 多 数 读者 都 认同 这 一 点 。 由 tf-idf 的 结果 可 以 看 
， 并 且 这 些 作品 的 差别 在 于 专 有 名 词 、 人 名 和 地 名 。 这 就 是 tf-idf 的 年 











物理 学 语料库 


现 
要 的 词 





在 来 研究 另 一 类 文档 的 语料库 ， 看 看 在 不 同 作品 中 哪些 单词 是 























看 点 ， 即 能 识别 出 对 文档 集合 里 某 个 文档 而 言 很 重要 的 单词 。 














要 的 ， 这 次 分 析 将 完全 脱离 小 说 和 令 导 











Da 


Frequency (Nikola Tesla) , Relativity: The Special and General Theory (Albert Einstein) 。 


ix 


学 习 ! 


是 相当 多 样 化 的 语 料 ， 也 是 物理 学 方面 的 经 典 作品 ， 





但 这 些 作 品 跨度 达 300 年 ， 并 且 其 





中 一 些 作品 先 








有 类 型 的 文本 。 在 Gutenberg 项 目下 载 一 些 经 典 的 物理 学 文本 , 采 
+ 么 。 下 载 Discourse on Floating Bodies (Galileo Galilei) , Treatise on Light (Christiaan Huygens) , Experiments with Alternate Currents of High Potential and High 








H, Jane Austen 在 她 的 六 本 小 说 中 使 用 了 相似 




















tf-idf 指 标 看 看 这 些 作品 中 重 











H 




















他 语言 撰写 ， 然 后 再 翻译 成 英文 ， 这 里 面 也 没有 完全 同类 的 作品 ， 但 这 仍 能 带 来 一 次 有 趣 的 








library (gutenbergr) 
physics <- gutenberg download(c(37729, 14725, 13476, 5001), 


meta fields = "author") 








使 




















unnest tokens () 和 count () 来 了 解 文本 中 每 个 单词 使 有 














physics words <- physics %>% 
unnest tokens (word, text) %>% 
count (author, word, sort = TRUE) %>% 
ungroup () 


physics words 























## # A tibble: 12,592 x 3 

HW author word n 

dH «chr» «chr» «int» 

## 1 Galilei, Galileo the 3760 

H2 Tesla, Nikola the 3604 

## 3 Huygens, Christiaan the 3553 

HA Einstein, Albert the 2994 

## 5 Galilei, Galileo of 2049 

## 6 Einstein, Albert of 2030 

## 7 Tesla, Nikola of 1737 

## 8 Huygens, Christiaan of 1708 

## 9 Huygens, Christiaan to 1207 

## 10 Tesla, Nikola a 1176 

## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 12,582 more rows 
从 这 个 结果 只 能 看 到 原始 的 计数 结果 ， 但 读者 需要 记 住 : 这 些 文档 的 长 度 不 一 样 。 接 下 来 是 计算 tf-idf 值 ， 然 后 可 视 化 具有 较 高 tf-idf 值 的 单词 ， 如 图 3-5 所 示 。 
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图 3-5: 每 份 物 理学 文本 中 具有 较 高 tfidf 值 的 单词 





plot physics <- physics words %>% 

bind tf idf(word, author, n) $»$ 

arrange (desc (tf idf)) $»$ 

mutate (word = factor (word, levels = rev(unique(word)))) %>% 

mutate (author = factor (author, levels = c("Galilei, Galileo", 
"Huygens, Christiaan", 
"Tesla, Nikola", 
"Einstein, Albert") )) 


plot physics %>% 
group by(author) %>% 
top n(15, tf idf) %>% 
ungroup() %>% 
mutate (word = reorder (word, tf idf)) %>% 
ggplot (aes (word, tf idf, fill = author)) + 
geom col(show.legend = FALSE) + 
labs(x = NULL, y = "tf-idf") + 
facet wrap(-author, ncol = 2, scales = "free") + 
coord flip() 





确实 非常 有 意思 ，Einstein 作 品 中 有 “eq”? ! 





library (stringr) 


physics %>% 
filter(str detect(text, "eq\\.")) $>% 
select (text) 

## # A tibble: 55 x 1 





HW text 
HW «chr» 
Hl ile eq01.gif 
H2 eq02.gif 
H3 eq03.gif 
HA eq04.gif 
H5 eq05a.gif 
H6 eq05b.gif 
HT the distance between the points being eq. 06 . 
## 8 direction of its length with a velocity v is eq. 06 of a metre. 
## 9 velocity v-c we should have eq. 06a , 
## 10 the rod as judged from K1 would have been eq. 06 ; 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 45 more rows 





从 上 面 的 结果 可 以 看 出 这 可 能 是 按 顺序 进行 了 文本 清理 。 “K1” 是 Einstein 取 的 坐标 系 名 称 。 





physics %>% 
filter(str detect(text, "K1")) %>% 
select (text) 
## A tibble: 59 x 1 
HW text 
dH «chr» 


## 1 to a second co-ordinate system K1 provided that the latter is 

## 2 condition of uniform motion of translation. Relative to K1 the 

## 3 tenet thus: If, relative to K, Kl is a uniformly moving co-ordinate 
## 4 with respect to K1 according to exactly the same general laws as with 
## 5 does not hold, then the Galileian co-ordinate systems K, K1, K2, etc., 
## 6 Relative to Kl, the same event would be fixed in respect of space and 
## 7 to Kl, when the magnitudes x, y, z, t, of the same event with respect 
## 8 of light (and of course for every ray) with respect to K and K1. For 
## 9 reference-body K and for the reference-body K1. A light-signal is sent 


## 10 immediately follows. If referred to the system K1, the propagation of 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 49 more rows 





也 许 保持 这 个 是 有 道理 的 。 还 要 注意 ， 在 这 一 行 中 有 “coordinate” ， 这 里 解释 为 什么 在 Einstein 文本 中 tf-idf 值 高 的 单词 中 有 单独 的 “co” 和 “ordinate” 项 ，unnest tokens () 函数 分 隔 开 标点 符 
号 。 请 注意 ，“co” 和 “ordinate” 的 tf-idf 值 几乎 相同 ! 











"AB" “RC” 等 分 别 表示 Huygens 的 射线 、 圆 图、 角度 等 名 称 : 














physics %>% 
filter(str detect(text, "AK")) %>% 
select (text) 

## # A tibble: 34 x 1 


+ text 

H «chr» 

## 1 Now let us assume that the ray has come from A to C along AK, KC; the 
## 2 be equal to the time along KMN. But the time along AK is longer than 
## 3 that along AL: hence the time along AKN is longer than that along ABC. 
## 4 And KC being longer than KN, the time along AKC will exceed, by as 

## 5 line which is comprised between the perpendiculars AK, BL. Then it 

## 6 ordinary refraction. Now it appears that AK and BL dip down toward the 
## 7 side where the air is less easy to penetrate: for AK being longer than 
## 8 than do AK, BL. And this suffices to show that the ray will continue 
## 9 surface AB at the points AK k B. Then instead of the hemispherical 


## 10 along AL, LB, and along AK, KB, are always represented by the line AH, 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 24 more rows 
























































删除 没有 多 少 意义 的 单词 ， 得 到 一 个 更 好 、 更 有 意义 的 图 形 。 即 制作 一 个 自 定义 停 用 词 列 表 ， 并 使 用 anti join () 删除 这 些 没什么 意义 的 词 ， 这 种 方法 非常 灵活 ， 可 以 在 许多 场景 中 使 用 。 由 于 从 整洁 
数据 框 中 删除 了 一 些 单词 ， 所 以 需要 退回 到 前 几 步 重新 运行 程序 ( 见 图 3-6) 。 















































mystopwords <- data frame(word = c("eq", "co", "rc", "ac", "ak", "bn", 
"fig", "file", "cg", "cb", "cm")) 
physics words <- anti join(physics words, mystopwords, by = "word") 
plot physics <- physics words $»$ ~ 
bind tf idf (word, author, n) %>% 
arrange(desc(tf idf)) %>% 
mutate (word = factor(word, levels = rev (unique (word) ) ) ) %>% 
group by(author) %>% 
top n(15, tf idf) %>% 
ungroup $»$ 
mutate (author = factor (author, levels = c("Galilei, Galileo", 
"Huygens, Christiaan", 
"Tesla, Nikola", 
"Einstein, Albert"))) 


ggplot (plot physics, aes (word, tf idf, fill = author)) + 
geom col(show.legend = FALSE) + 
labs(x = NULL, y = "tf-idf") + 
facet wrap(-author, ncol = 2, scales = "free") + 
coord flip() 
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图 3-6: 经 典 物 理学 文本 中 tf-idf 值 最 高 的 单词 


从 图 3-6 可 以 得 出 结论 ， 现 在 已 经 很 少 听 到 一 些 物理 元 素 单词 了 。 








总 结 


词 项 频率 和 逆 文 档 频率 可 从 文档 集合 中 找到 反映 某 个 文档 特征 的 单词 ， 这 些 文档 类 型 包括 : 小 说 、 物 理 文本 和 网 页 等 。 研 究 词 频 有 助 于 深入 了 解 自然 语言 集合 中 语言 是 如 何 使 用 的 ， 并 且 tidytext 包 提供 
了 研究 词 频 的 工具 ， 比 如 count () Rž rank () 函数 等 。 用 tidytext 包 来 实现 基于 整洁 数据 原则 的 tf-idf， 这 使 我 们 能 够 看 到 文档 集合 (或 语料库 ) 中 各 个 文档 里 面 不 同 单词 的 重要 性 。 





第 4 章 ” 词 之 间 的 关系 : n-gram 及 相关 性 


目前 为 止 ， 本 书 把 单词 当 作 独 立 的 单元 来 研究 如 何 分 析 单词 与 情感 、 文 档 的 关系 。 但 还 有 许多 有 趣 的 文本 分 析 方法 会 通过 查看 单词 与 紧 随 其 后 的 单词 ， 以 及 在 同一 文档 中 哪些 单词 通常 会 同时 出 现 来 研 
究 单词 之 间 的 关系 。 


本 章 将 介绍 一 些 由 tidytext 提 供 的 方法 ， 这 些 方法 可 以 用 来 计算 和 显示 文本 数据 集中 单词 之 间 的 关系 。 例 如 ，token= “ngrams” 参 数 ， 对 于 成 对 的 相 邻 单词 而 不 是 单个 单词 来 进行 词 条 化 。 这 里 还 将 介 
绍 两 个 新 的 软件 包 : ggraph (该 包 由 Thomas Pedersen 开 发 ) 和 widyr， 其 中 ggraph 包 通过 扩展 ggplot2 包 来 构建 网 络 图 ;widyr 包 可 以 通过 整洁 数据 框 来 计算 单词 之 间 的 相关 性 和 距离 。 这 些 包 扩展 了 的 
工具 箱 ， 可 以 使 用 户 在 整洁 数据 框 上 研究 文本 。 


n-gram 词 条 化 


本 书 使 用 unnest_tokens 函 数 对 单词 或 句子 进行 词 条 化 ， 这 对 于 前 面 介 绍 的 情感 分 析 和 词 项 频率 分 析 很 有 用 。 另 外 还 可 使 用 该 函数 来 获取 连续 的 单词 序列 ， 称 为 n-gram， 即 通过 查看 单词 X 在 单词 Y 之 
后 出 现 的 频率 ， 建 立 两 者 之 间 关 系 的 模型 。 


在 notify tokens () 中 添加 token=“ngrams” 选项， 并 将 n 设 置 为 希望 在 每 个 n-gram 中 捕获 的 单词 数量 。 若 将 n 设 置 为 2 时 ， 那 么 会 检查 两 个 连续 的 单词 对 ， 通 常 称 为 “二 元 组 ” : 





library (dplyr) 
library (tidytext) 
library (janeaustenr) 


austen bigrams <- austen books() $»$ 
unnest tokens (bigram, text, token = "ngrams", n = 2) 


austen bigrams 
## # A tibble: 725,048 x 2 


H book bigram 
+E <fctr> <chr> 
## 1 Sense & Sensibility sense and 
## 2 Sense & Sensibility and sensibility 
## 3 Sense & Sensibility sensibility by 
## 4 Sense & Sensibility by jane 
## 5 Sense & Sensibility jane austen 
## 6 Sense & Sensibility austen 1811 
## 7 Sense & Sensibility 1811 chapter 
## 8 Sense & Sensibility chapter 1 
## 9 Sense & Sensibility 1 the 
## 10 Sense & Sensibility the family 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 725,038 more rows 


这 种 数据 结构 是 改进 的 整洁 文本 格式 ， 这 种 格式 是 按 每 行 一 个 序列 的 形式 构建 的 〈 一 些 额外 的 元 数据 ， 如 book， 在 该 数据 结构 中 仍然 保留 ) ， 但 每 个 词 条 都 表示 一 个 二 元 组 。 





了 从 请 注意 这 会 有 重 夺 的 二 元 组 : “sense and” 是 一 个 词 条 , 而 “and sensibility” 则 是 另 一 个 词 条 。 





计数 和 n-gram 过 滤 






































前 面 使 用 的 整洁 工具 同样 适用 于 n-gram 分 析 ， 使 用 dplyr 包 的 count () 来 检查 最 常见 的 二 元 组 : 





austen bigrams %>% 
count(bigram, sort = TRUE) 
## # A tibble: 211,237 x 2 


dH bigram n 
HW «chr» «int» 
## 1 of the 3017 
## 2 to be 2787 
H3 in the 2368 
Hr it was 1781 
H5 i am 1545 
## 6 she had 1472 
HT of her 1445 
H8 to the 1387 
## 9 she was 1377 


## 10 had been 1299 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 211,227 more rows 

















正如 所 期 待 的 那样 ， 很 多 最 常见 的 二 元 组 是 常见 的 单词 ， 例 如 “of the” 和 “to be”， 这 些 单词 被 称 为 “ 停 用 词 ” ( 见 第 1 章 ) 。 这 时 需要 使 用 tidyr 的 separate () 函数 来 进行 处 理 ，separate () 函 
数 可 以 根据 分 隔 符 将 单词 分 隔 成 多 个 列 ， 这 里 把 单词 分 成 两 列 “word1” 和 “word2” ， 若 这 两 个 单词 中 任何 一 个 是 停 用 词 就 删除 它们 。 


















































library (tidyr) 


bigrams separated <- austen bigrams %>% 
separate(bigram, c("wordl", "word2"), sep = " ") 


bigrams filtered «- bigrams separated 
filter(!wordl $in$ stop words$word) 
filter(!word2 $in$ stop words$word) 


# new bigram counts: 
bigram counts <- bigrams filtered %>% 
count(wordl, word2, sort - TRUE) 


bigram counts 
## Source: local data frame [33,421 x 3] 
## Groups: wordl [6,711] 


dH 

Hr wordl word2 n 
HW «chr» «chr» «int» 
HI sir thomas 287 
## 2 miss crawford 215 
## 3 captain wentworth 170 
## 4 miss woodhouse 162 
H5 frank churchill 132 
## 6 lady russell 118 
HT lady bertram 114 
## 8 sir walter 113 
H9 miss  fairfax 109 


## 10 colonel brandon 108 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 33,411 more rows 





可 以 看 到 这 些 名 字 (不 管 是 姓名 ， 还 是 称呼 ) 都 是 jane Austen 的 小 说 中 最 常见 的 。 












































在 其 他 分 析 中 ， 可 能 想 要 使 用 重组 的 单词 。tidyr 包 中 的 unite () 函数 会 执行 与 separate () 函数 相反 的 操作 ， 因 此 可 用 它 将 切 分 的 单词 重新 组 合成 一 个 。 因 此 ,， 通 
“separate/filter/count/unite” 可 以 找到 不 含 停 用 词 的 最 常见 二 元 组 。 
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bigrams united <- bigrams filtered $>% 
unite(bigram, wordl, word2, sep = " ") 


bigrams united 
## # A tibble: 44,784 x 2 


He book bigram 
LEN «fctr» «chr» 
## 1 Sense & Sensibility jane austen 
## 2 Sense & Sensibility austen 1811 
## 3 Sense & Sensibility 1811 chapter 
## 4 Sense & Sensibility chapter 1 
## 5 Sense & Sensibility norland park 
## 6 Sense & Sensibility surrounding acquaintance 
## 7 Sense & Sensibility late owner 
## 8 Sense & Sensibility advanced age 
## 9 Sense & Sensibility constant companion 
## 10 Sense & Sensibility happened ten 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 44,774 more rows 























在 其 他 分 析 中 ， 可 能 对 最 常见 的 三 元 组 感 兴趣 ， 三 元 组 是 三 个 单词 的 连续 序列 ， 可 以 通过 设置 n=3 来 获取 三 元 组 。 





austen books() %>% 
unnest tokens(trigram, text, token = "ngrams", n = 3) $»$ 
separate(trigram, c("wordl", "word2", "word3"), sep = " ") %>% 


f. 


ilter(!wordl $in$ stop_words$word, 
!word2 $in$ stop words$word, 
!word3 $in$ stop words$word) $»$ 
count(wordl, word2, word3, sort - TRUE) 


Source: local data frame [8,757 x 4] 
Groups: wordl, word2 [7,462] 

wordl word2 word3 n 

«chr» «chr» «chr» «int» 
1 dear miss woodhouse 23 
2 miss de bourgh 18 
3 lady catherine de 14 
4 catherine de bourgh T3 
5 poor miss taylor 11 
6 sir walter elliot 11 
7 ten thousand pounds 11 
8 dear sir thomas 10 
9 twenty thousand pounds 8 
10 replied miss crawford 了 
# http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 8,747 more rows 





分 析 二 元 组 


这 种 每 行 一 个 元 组 的 格式 有 助 于 研究 文本 分 析 ， 下 面 给 出 一 个 简单 的 例子 ， 该 例子 可 能 对 每 本 书 中 提 到 的 最 常见 的 “streets” 一 词 感 兴趣 。 





big: 
f 


rams filtered %>% 


ilter(word2 == "street" 


') $54 


count (book, wordl, sort = TRUE) 
## Source: local data frame [34 x 3] 


## Groups: book [6] 

Hr 

HW book wordl n 
HW <fctr> <chr> <int> 
## 1 Sense & Sensibility berkeley 16 
## 2 Sense & Sensibility harley 16 
H3 Northanger Abbey pulteney 14 
## 4 Northanger Abbey milsom 11 
H5 Mansfield Park wimpole 10 
## 6 Pride & Prejudice gracechurch 9 
## 7 Sense & Sensibility conduit 6 
## 8 Sense & Sensibility bond 5 
Ho Persuasion milsom 5 
## 10 Persuasion rivers 4 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 24 more rows 





一 个 二 元 组 也 可 以 被 视 为 文档 的 一 个 词 项 ， 就 像 单 个 的 和 


所 示 ) 。 











词 一 样 。 例 如 ， 可 查看 Austen 小 说 中 二 元 组 的 tf-idf 值 ( 见 第 3 章 ) 。 像 对 单词 的 处 理 那样 ， 也 可 以 可 视 化 每 本 书 中 二 元 组 的 tf-idf 值 (如 
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图 4-1: 每 本 Jane Austen 小 说 中 最 高 的 12 个 二 元 组 的 tf-idf 值 





bigram tf idf <- bigrams united %>% 
count (book, bigram) %>% 
bind tf idf(bigram, book, n) %>% 
arrange (desc(tf idf)) 

bigram tf idf 

## Source: local data frame [36,217 x 6] 

## Groups: book [6] 


dH 

d book bigram n tf idf tf idf 
HE «fctr» Xchr» «int» «dol» «dbl» «dol» 
Hl Persuasion captain wentworth 170 0.02985599 1.791759 0.05349475 
H2 Mansfield Park sir thomas 287 0.02873160 1.791759 0.05148012 
H3 Mansfield Park miss crawford 215 0.02152368 1.791759 0.03856525 
## 4 Persuasion lady russell 118 0.02072357 1.791759 0.03713165 
#5 Persuasion sir walter 113 0.01984545 1.791759 0.03555828 
## 6 Emma miss woodhouse 162 0.01700966 1.791759 0.03047722 
## 7 Northanger Abbey miss tilney 82 0.01594400 1.791759 0.02856782 
## 8 Sense & Sensibility ^ colonel brandon 108 0.01502086 1.791759 0.02691377 
## 9 Emma frank churchill 132 0.01385972 1.791759 0.02483329 


## 10 Pride & Prejudice lady catherine 100 0.01380453 1.791759 0.02473439 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 36,207 more rows 





就 像 在 第 3 章 中 看 到 的 那样 ， 区 分 每 本 Austen 著 作 的 单元 基本 上 都 是 名 字 ， 并 且 还 会 看 到 一 些 普通 动 词 和 名 字 的 搭配 ， 例 如 在 《傲慢 与 偏见 》 中 的 “replied elizabeth" , Œ (35:3) PAI "cried 


emma" , 





二 元 组 (而 不 是 单个 词 ) 的 tf-idf 既 有 优点 也 有 缺点 。 对 连续 单词 对 进行 计数 得 到 的 结构 可 能 是 单个 单词 计数 捕获 不 到 的 ， 并 且 得 到 的 词 条 可 能 更 容易 理解 上 下 文 (例如 ，《 诺 桑 觉 寺 》 中 的 “pulteney 
street” 比 “pulteney” 含 有 更 多 的 信息 ) 。 然 而 ， 每 个 二 元 组 计数 比较 稀 玻 : 通常 的 词组 比 组 成 该 词组 的 单词 的 数量 要 少 一 些 。 因 此 ， 对 于 一 个 非常 大 的 文本 数据 集 ， 使 用 二 元 组 格式 可 能 会 特别 有 用 。 





























使 用 二 元 组 来 得 到 情感 分 析 的 上 下 文 


第 2 章 中 的 情感 分 析 方 法 根据 所 参考 的 词典 简单 地 计算 正面 单词 或 负面 单词 出 现 的 次 数 。 这 种 方法 的 问题 是 单词 及 其 上 下 文 对 评价 情感 的 贡献 都 一 样 。 例 如 ，“happy” 和 “like” 将 被 视 为 积极 的 ， 即 
使 在 “I m not happy and I don’ t like it” 这 样 的 句子 中 也 被 认为 是 积极 的 。 


现在 将 数据 组 织 成 二 元 组 ， 就 很 容易 给 出 单词 (比如 “not”) 之 后 经 常 出 现 什么 单词 。 





bigrams separated %>% 
filter (wordl == "not") %>% 
count (wordl, word2, sort = TRUE) 


## Source: local data frame [1,246 x 3] 


## Groups: wordl [1] 

LÀ 

HE wordl word2 n 
H «chr» «chr» «int» 


## 1 not be 610 
## 2 not to. 355 
H3 not have 327 
## 4 not know 252 
## 5 not a 189 
## 6 not think 176 
HET not been 160 
H8 not the 147 
## 9 not at 129 
## 10 not in 118 
Hor 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 1,236 more rows 





通过 对 二 元 组 数据 进行 情感 分 析 来 得 到 与 情感 相关 的 自 



































a 词 在 “not” 或 其 他 否定 词 之 后 出 现 的 频率 ， 并 用 频率 来 忽略 甚至 修改 单词 对 情感 评分 的 贡献 。 









































下 面 使 用 AFINN 词 汇 表 来 进行 情感 分 析 ，AFINN 中 的 每 个 单词 都 有 一 个 情感 分 数 ， 并 且 用 正 数 或 负数 分 别 表示 正面 情感 和 负面 情感 。 





AFINN «- get sentiments ("afinn") 


AFINN 

## # A tibble: 2,476 x 2 
HW word score 
H Xchr» «int» 
## 1 abandon =2 
## 2 abandoned -2 
H3 abandons -2 
## 4 abducted -2 
## 5 abduction -2 
## 6 abductions -2 
HT abhor -3 
## 8 abhorred -3 
## 9 abhorrent =3 
## 10 abhors -3 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,466 more rows 





然后 ， 可 以 检查 “not” 之 后 最 常 出 现 并 | 





目 与 情感 有 关 的 单词 。 





not words <- bigrams separated $»$ 


filter (wordl == "not") $»$ 
inner join(AFINN, by = c(word2 = "word")) %>% 


count (word2, score, sort = TRUE) $ 
ungroup () 


not_words 


## # A tibble: 245 x 3 


>% 


H word2 score n 
H «chr» «int» «int» 
## 1 like 2 99 
## 2 help 2 82 
H3 want 1 45 
## 4 wish $ 39 
H5 allow 1 36 
H6 care 2 23 
HET sorry 2 21 
H8 leave =È 18 
## 9 pretend E 18 
## 10 worth 2 17 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 235 more rows 








例如 ，“not” 单词 之 后 最 常见 且 与 情感 有 关 的 单词 是 “like” ， 通 常情 况 下 该 单词 ， 表 示 正 面 情感 ， 其 分 数 为 2。 




















值得 一 问 的 是 哪些 单词 在 “错误 ”方向 上 贡献 最 多 。 为 了 计算 出 答案 ， 可 以 




















影响 力 ) ， 这 里 用 条 形 图 来 显示 结果 (MWE 


























4-2 所 示 ) 。 
































词 的 分 数 乘 以 出 现 的 次 数 (这 样 做 可 以 使 情感 “得 分 +3” 出 现 10 次 的 单 





词 











有 与 “得 分 +1” 出 现 30 次 的 单 
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有 相同 





g | 


00 


1 
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图 4-2: 对 “情感 ”分 数 做 出 最 大 贡献 的 20 个 单词 ， 包 括 “ 正 面 ” 及 “负面 ”情感 





not words %>% 
mutate (contribution = n * score) %>% 
arrange (desc (abs (contribution) ) ) %>% 
head (20) %>% 
mutate (word2 = reorder (word2, contribution)) %>% 
ggplot (aes (word2, n * score, fill = n * score > 0)) + 
geom col(show.legend = FALSE) + 
xlab ("Words preceded by \"not\"") + 
ylab ("Sentiment score * number of occurrences") + 
coord flip() 





绝 大 多 数 情况 下 词组 “not like” 3] "not help” 是 误 识别 最 多 的 两 个 词组 ， 它 们 会 使 文本 看 起 来 更 加 正面 。 同 时 ， 有 时 候 也 能 看 到 ， 短 语 “not afraid” P "not fail” 比 文本 更 负面 。 


不 只 有 “not” 才 能 对 后 续 单 词 提供 上 下 文 ， 下 面 选择 四 个 常见 的 单词 (或 更 多 ) 来 否定 后 续 单 词 ， 并 使 用 相同 的 join 和 count 方 法 获得 结果 。 





negation words «- c("not", "no", "never", "without") 


negated words <- bigrams separated %>% 
filter(wordl $in$ negation words) $»$ 
inner join(AFINN, by = c(word2 = "word")) %>% 
count(wordl, word2, score, sort = TRUE) $>% 
ungroup () 





通过 图 4-3 可 以 看 出 每 个 特定 否定 词 最 常见 的 后 续 单词 是 什么 。 “not like” 和 “not help” 仍 然 是 最 常见 的 两 个 例子 ， 也 可 以 看 到 “no great” 和 “never loved” 组 合 ， 可 以 将 其 与 第 2 章 中 的 方法 结 
合 起 来 反 转 每 个 否定 后 续 单词 的 AFINN 得 分 。 这 里 只 给 出 了 几 个 例子 ， 用 来 说 明 如 何 找到 连续 单词 ， 从 而 为 文本 挖掘 方法 提供 上 下 文 信息 。 
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用 ggraph 包 可 视 化 二 元 组 网 络 


同时 观察 单词 之 间 的 所 有 关系 是 一 件 有 趣 的 事 ， 而 不 仅仅 是 只 观察 最 初 几 个 的 单词 关系 。 作 为 常见 的 可 视 化 方式 ， 可 将 这 些 单词 排列 成 一 个 网 络 (或 “图 
节点 之 间 相 互 连 接 的 一 种 组 合 。 由 于 整洁 对 象 有 三 


weight 


每 条 边 的 数值 。 


igraph 包 有 许多 用 于 操作 和 分 析 网 络 的 强大 的 功能 ， 可 用 graph_from_data_frame () 函数 从 整洁 数据 创建 igraph 对 象 ， 该 函数 会 使 用 具有 列 “from” 


a 
o 
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150 200 
情感 得 分 x 否定 词 的 出 现 次 数 


图 4-3: 在 否定 词 (de “never” “no” “ 





因此 可 以 用 来 构建 图 : 











” "without" ) 后 面 最 常见 的 正面 单词 











S 


”) 。 这 里 说 的 图 并 不 是 可 视 化 的 图 形 ， 而 是 











“to” 和 边 属性 (在 本 例 中 为 n) 的 边 的 数据 





library (igraph) 


# original counts 
bigram counts 


## Source: local data frame [33,421 x 3] 


## Groups: wordl [6,711] 
t 


dH wordl word2 n 
+E <chr> <chr> <int> 
Hl sir thomas 287 


H2 miss crawford 215 
## 3 captain wentworth 170 
## 4 miss woodhouse 162 
H5 frank churchill 132 
H6 lady russell 118 
HT lady bertram 114 
H8 sir walter 113 
## 9 miss fairfax 109 


## 10 colonel brandon 108 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 33,411 more rows 
# filter for only relatively common combinations ig 
bigram graph <- bigram counts %>% 
filter (n > 20) %>% 
graph from data_frame () 


bigram graph 

## IGRAPH DN-- 91 77 -- 

## + attr: name (v/c), n (e/n) 
## + edges (vertex names): 


[1] sir -»thomas miss -»crawford captain -»wentworth 

## [4] miss -»woodhouse frank  -»churchill lady -»russell 

## [7] lady -»bertram sir -»walter miss -»fairfax 

## [10] colonel -»brandon miss -»bates lady -»catherine 

HF [13] sir ->john jane ->fairfax miss ->tilney 

## [16] lady ->middleton miss ->bingley thousand->pounds 

## [19] miss -»dashwood | miss -»bennet john -»knightley 

## [22] miss -»morland captain -»benwick dear -»mis 

## http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... omitted several edges 
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虽然 igraph 内 置 了 绘图 功能 ， 但 这 并 不 是 该 包 设计 的 初衷， 许多 其 他 包 已 经 开发 了 
ggplot2 包 时 也 接触 过 这 方面 的 内 容 。 


对 象 的 可 视 化 方法 。 这 里 推荐 使 用 ggraph 包 (Pedersen, 2017) ， 因 为 该 包 按 图 的 语法 来 实现 可 视 化 ， 之 前 使 
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4-4 所 示 ) 。 


[ 
@ 











可 以 用 ggraph 函 数 将 一 个 igraph 对 象 转换 成 一 个 ggraph 对 象 ， 之 后 再 添加 层 到 图 中 ， 这 点 和 在 ggplot2 中 添加 层 很 像 。 例 如 ， 对 于 基本 的 图 ， 需 要 添加 三 层 : 节点 、 箭 头 和 文本 (如 





library (ggraph) 
set.seed(2017) 


ggraph (bigram graph, layout = "fr") + 
geom edge link() + 
geom node point() + 
geom node text(aes(label - name), vjust - 1, hjust - 1) 






































从 图 4-4 可 以 看 到 文本 结构 的 一 些 细节 。 例 如 ， 像 “miss” “lady”“sir” 和 “colonel” 这 样 的 称呼 语 组 成 了 节点 共同 的 中 心 ， 这 些 词 的 后 面 通常 是 名 字 。 还 可 以 看 到 其 他 二 元 组 或 三 元 组 形成 常见 的 
短语 ( "half hour" "thousand pounds" 或 “short time/pause" ) 。 














最 后 ， 通 过 打磨 操作 来 制作 更 好 看 的 








(如 图 4-5 所 示 ) : 





[ 





“ 将 用 于 美化 边 的 参数 edge_alpha 添 加 到 链接 层 ， 以 使 那些 常见 或 很 少 出 现 的 二 元 组 的 链接 变 得 透明 。 
: 使 用 grid: : arrow () 构造 箭头 的 方向 ， 包 括 用 end_cap 选 项 在 到 达 节 点 之 前 使 箭头 结束 。 
“ 修改 节点 层 的 选项 ， 使 节点 更 具 吸 引力 。 


- Jltheme void () 添加 一 个 对 绘制 网 络 有 用 的 主题 。 
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图 4-4: 《傲慢 与 偏见 》 中 的 普通 二 元 组 中 ， 出 现 20 次 以 上 并 且 不 是 停 用 词 的 单词 
set.seed(2016) 
a «- grid::arrow(type - "closed", length - unit(.15, "inches")) 


ggraph(bigram graph, layout = "fr") + 
geom edge link(aes(edge alpha - n), show.legend - FALSE, 
arrow = a, end cap = circle(.07, 'inches')) + 
geom node point(color = "lightblue", size = 5) + 
geom node text(aes(label = name), vjust = 1, hjust = 1) + 
theme void() 





可 能 需要 对 ggraph 进 行 一 些 实验 ， 才 能 得 到 这 种 可 展示 的 网 络 ， 网 络 结构 是 一 种 可 视 化 整洁 数据 的 灵活 方法 。 
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4-5: 《傲慢 与 偏见 》 中 经 过 打磨 的 普通 二 元 组 














所 请 注意 ， 这 是 一 个 马尔 可 夫 链 的 可 视 化 ， 一 种 通用 的 文本 处 理 模型 。 在 马尔 可 夫 链 中 ， 每 个 单词 的 选择 只 取决 于 前 一 个 单词 。 在 这 种 情况 下 ， 这 个 模型 可 能 会 随机 生成 “dear”， 然 后 是 “si ， 接 
的 后 面 跟着 最 常见 的 单词 。 为 了 使 可 视 化 图 形 能 够 被 理解 ， 这 里 仅 显 示 最 常见 的 词 与 词 之 间 的 连接 ， 但 大 家 可 以 想象 一 下 ， 若 要 表示 所 有 连接 ， 则 

















下 来 是 “william/walter/thomas/thomas”s”， 每 个 词 
需要 一 个 巨大 的 图 。 





可 视 化 其 他 文本 的 二 元 组 








下 面 将 在 文本 数据 集 上 完成 大 量 清理 和 可 视 化 二 元 组 的 工作 ， 将 这 些 工作 放 到 一 个 函数 中 ， 以 便 能 够 在 其 他 文本 数据 集 上 轻松 执行 这 些 操作 。 


入 为 了 方便 使 用 函数 count bigrams () 和 visualize_bigrams () ， 这 里 需要 重新 加 载 所 需 的 软件 包 。 








library (dplyr) 
library (tidyr) 
library (tidytext) 
library (ggplot2) 
library (igraph) 
library (ggraph) 


count bigrams «- function(dataset) ( 
dataset %>% 
unnest tokens (bigram text, token = "ngrams", n = 2) %>% 
separate (bigram, c("wordl", "word2"), sep = " ") %>% 
filter(!wordl $in$ stop wordsSword, 
!word2 $in$ stop words$word) %>% 

count(wordl, word2, sort = TRUE) 

} 


visualize bigrams <- function(bigrams) { 


set.seed (2016) 
a <- grid::arrow(type = "closed", length = unit(.15, "inches")) 


bigrams $»$ 
graph from data frame() %>% 
ggraph(layout = "fr") + 
geom edge link (aes (edge alpha - n), show.legend 


= FALSE, arrow = a) 十 


geom node point(color = "lightblue", size = 5) + 
geom node text(aes(label = name), vjust = 1, hjust = 1) + 


theme void() 








在 此 基础 上 ， 还 可 以 可 视 化 其 他 作品 中 的 二 元 组 ， 如 King Jame 版 的 《圣经 》 (如 











4-6 所 示 ) : 


[ 





# the King James version is book 10 on Project Gutenberg: 


library (gutenbergr) 
kjv <- gutenberg download (10) 
library (stringr) 


kjv bigrams <- kjv %>% 
count_bigrams () 


# filter out rare combinations, as well as digits 
kjv bigrams $»$ 
filter(n » 40, 
Istr detect (wordl, "NWd"), 
!str detect (word2, "\\d")) %>% 
visualize_bigrams () 
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图 4-6: KingJames 版 的 《圣经 》 中 常见 二 元 组 的 有 向 图 ， 这 里 给 出 了 出 现 40 次 的 二 元 组 
































兴趣 的 经 典 书籍 中 的 二 进 制 格式 。 


此 ， 图 4-6 展 示 了 《圣经 》 中 常见 的 “蓝图 ”， 特别 是 “thy” 和 “thou” 














(一 些 可 能 被 看 作 是 停 用 词 的 单词 ) ! 可 以 使 用 gutenbergr 软 件 包 和 count_bigrams/visualize_bigrams 函 数 来 查看 
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用 widyr 包 对 单词 对 计数 并 计算 相关 性 


利用 n-gram 进 行 词 条 化 是 一 种 研究 相 邻 单词 对 (pair of word) 的 有 用 方式 。 但 是 ， 这 里 可 能 对 特定 文档 或 特定 章节 中 共同 出 现 的 单词 感 兴趣 ， 即 使 这 些 单词 彼此 不 相 邻 。 


整洁 数据 是 进行 变量 比较 或 按 行 分 组 的 有 用 结构 ， 但 是 ， 行 之 间 比 较 具 有 挑战 性 : 例如 ， 计 算 两 个 单词 在 同一 文档 中 出 现 的 次 数 ， 或 查看 单词 的 相关 性 ， 查 看 成 对 计数 或 相关 性 操作 时 基本 上 都 需要 先 


第 5 章 将 研究 一 些 可 以 将 整洁 文本 转换 成 广义 矩阵 的 方法 ， 但 这 里 不 需要 进行 转化 。 通 过 简化 “加 宽 数 据 ， 执 行 操 作 ， 然 后 重新 整理 数据 ”的 模式 来 使 widyr 软 件 包 计算 计数 和 相关 性 等 操作 变 得 容易 
(如 图 4-7 所 示 ) 。 本 章 将 重点 介绍 一 组 用 于 在 观察 组 之 间 进 行 成 对 比较 〈( 例 如， 文档 或 文本 部 分 之 间 ) 的 功能 。 
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和 矩形 化 (操作 ) 








图 4-7: widyr 包 可 以 在 整数 数据 集中 执行 诸如 计数 和 关联 值 之 类 的 操作 。widyr 包 将 一 个 整洁 数据 集 转换 成 一 个 宽 和 矩阵 ， 并 执行 像 相关 性 之 类 的 操作 ， 然 后 再 重新 整理 结果 


在 章节 中 计数 和 计算 相关 性 


将 小 说 《做 慢 与 偏见 》 分 成 每 10 行 一 个 章节 的 形式 ， 就 像 第 2 章 中 对 大 段落 进行 情感 分 析 时 一 样 ， 我 们 可 能 还 对 同一 章节 出 现 的 词语 感 兴 





austen section words <- austen books() $»$ 
filter (book == "Pride & Prejudice") $»$ 
mutate (section = row number() $/$ 10) %>% 
filter (section > 0) %>% 
unnest tokens (word, text) %>% 
filter(!word $in$ stop wordsS$word) 


austen section words 
## # A tibble: 37,240 x 3 


dH book section word 
Hr <fctr>  «dbl» «chr» 
## 1 Pride & Prejudice l truth 
## 2 Pride & Prejudice 1 universally 
## 3 Pride & Prejudice 1 acknowledged 
## 4 Pride & Prejudice 1 single 
## 5 Pride & Prejudice 1 possession 
## 6 Pride & Prejudice £ fortune 
## 7 Pride & Prejudice T wife 
## 8 Pride & Prejudice 1 feelings 
## 9 Pride & Prejudice 1 views 
## 10 Pride & Prejudice $ entering 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 37,230 more rows 





pairwise count () 是 widyr 包 中 一 个 有 用 的 函数 。pairwise_count 的 前 缀 pairwise 表示 该 函数 针对 word 变 量 中 每 个 单词 对 来 得 到 一 行 ， 这 可 以 用 来 计算 在 同一 章节 同时 出 现 的 常用 词组 。 





library (widyr) 


# count words co-occuring within sections 
word pairs <- austen section words %>% 
pairwise count(word, section, sort = TRUE) 


word pairs 

## # A tibble: 796,008 x 3 

dH iteml item2 n 
HW «chr» «chr» «dbl» 
## 1 darcy elizabeth 144 
## 2 elizabeth darcy 144 
#3 miss elizabeth 110 
## 4 elizabeth miss 110 
## 5 elizabeth jane 106 
H6 jane elizabeth 106 
#7 miss darcy 92 
H8 darcy miss 92 
## 9 elizabeth bingley 91 
## 10  bingley elizabeth 91 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 795,998 more rows 





请 注意 ， 如 果 每 个 文档 对 (每 个 章节 包括 10 行 ) 或 单词 对 作为 一 行 输入 ， 那 么 每 个 单词 对 也 是 按 一 行 输出 。 这 是 整洁 格式 ， 但 这 是 一 个 非常 不 同 的 结构 ， 可 以 用 来 回答 新 闻 题 。 


例如 ， 如 果 某 一 段 文档 中 最 


word pairs %>% 


dH 
H 
H 
Hn 
Hn 
H 
H 
dH 
H 
H 
Hn 
Hn 
H 


n 
1» 
44 
92 
86 
46 


filter(iteml == "darcy") 

# A tibble: 2,930 x 3 
iteml item2 
«chr» «chr» «db 

1 darcy elizabeth 1 

2 darcy miss 

3 darcy  bingley 

4 darcy jane 

5 darcy bennet 

6 darcy sister 

7 darcy time 

8 darcy lady 

9 darcy friend 

10 darcy | wickham 


常见 的 词组 是 “Elizabeth” 和 “Darcy” 


(小 说 中 的 两 个 3 





E 要 人 物 ) ， 那 么 ， 就 可 以 很 容易 地 找到 经 常 和 Darcy 一 起 出 现 的 和 


d 


isl. 





## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,920 more rows 


检验 成 对 相关 性 


像 “Elizabeth” 和 “Darcy” 这 些 词组 虽然 常常 同时 出 现 ， 但 并 不 是 非常 有 意义 ， 


的 相关 性 。 

















体 来 说 ， 这 里 将 重点 介绍 phi 系 数 ， 它 是 F 











例如 ，n11 表 示 单 词 X 和 单词 Y 都 4 


单词 X 出现 
单词 X 不 出 现 


合计 
































来 度量 二 元 组 相关 性 的 常 








单词 Y 出 现 


nii 


























noi 


n 


现 的 文档 数 ，no0 表 示 单 词 X 自 























因为 这 些 词 也 是 最 常见 的 单个 词 。 因 此 ， 还 需要 检查 单词 之 间 的 相关 性 ， 从 而 得 到 这 些 词组 同时 出 现 与 让 


PAR EHE" [8] 








方法 。phi 系 数 主要 计算 X 和 Y 都 出 现 ， 或 者 都 不 出 现 的 可 能 性 ， 而 不 是 某 个 单词 出 现 另 一 个 单词 不 出 现 的 可 能 性 ， 见 表 4-1。 


表 4-1: 


$ 














也 phi 系 数 等 价 于 Pearson 相 关 性 ， 在 其 他 基于 二 元 组 数据 的 应 上 


widyr 包 中 的 pairwise_cor () 函数 可 以 根据 在 同一 章节 中 单词 出 现 的 频率 来 找到 单词 之 间 的 phi 系 数 ， 














# we need to filter for at least relatively common words first 
word cors <- austen section words $»$ 
group by(word) %>% 


filter(n() >= 20) $»$ 


pairwise cor(word, section, sort = TRUE) 


word cors 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 





## # A tibble: 154,842 x 3 
HE iteml item2 correlation 
H «chr» «chr» «dbl» 
## 1 bourgh de 0.9508501 
## 2 de bourgh 0.9508501 
H3 pounds thousand 0.7005808 
## 4 thousand pounds | 0.7005808 
## 5 william sir  0.6644719 
## 6 sir william 0.6644719 
## 7 catherine lady 0.6633048 
## 8 lady catherine 0.6633048 
## 9 forster colonel 0.6220950 
## 10 colonel forster | 0.6220950 
Hg 
这 种 输出 格式 有 助 于 进行 研究 ， 例 如 ， 可 以 使 
word cors %>% 

filter(iteml == "pounds") 
## # A tibble: 393 x 3 
HW iteml item2 correlation 
+H <chr> <chr> «dbl» 
## 1 pounds thousand 0.70058081 
## 2 pounds ten 0.23057580 
## 3 pounds fortune 0.16386264 
## 4 pounds settled 0.14946049 
## 5 pounds wickham's 0.14152401 
## 6 pounds children 0.12900011 
## 7 pounds mother's 0.11905928 
## 8 pounds believed 0.09321518 
## 9 pounds estate 0.08896876 
## 10 pounds ready 0.08597038 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 






































这 可 以 用 于 来 找到 感 兴 











趣 的 


词 ， 并 查看 与 这 些 单词 最 相关 的 


词 ( 见 





























图 4-8) . 








用 于 计算 phi 系 数 的 值 


nio 


noo 


n.o 


单词 Y 不 出 现 


nl 


no 


n 





a 词 Y 都 没有 出 现 的 文档 数 ，n10 和 no1 表 示 某 个 单词 出 现 、 





Wifioo 7 Mohon 





N nyngn, 


中 ， 读 者 可 能 已 经 听 说 过 该 系数 。 

















filter 操 作 找 到 与 单词 (比如 pounds) 最 相关 的 单词 。 


3 一 个 单词 没有 出 现 的 情况 。 在 表 4-1 中 ，phi 系 数 是 : 





其 语法 类 似 于 pairwise count () 函数 。 


with 154,832 more rows 


with 383 more rows 





word cors %>% 
filter(iteml $in$ c("elizabeth", "pounds", "married", "pride")) $%>% 
group by(iteml) $»$ 
top n(6) %>% 
ungroup() %>% 
mutate(item2 = reorder(item2, correlation)) 
ggplot(aes(item2, correlation)) + 


$5 










































geom bar (stat = "identity") + 
facet_wrap(~ iteml, scales = "free") + 
coord flip() 
looked 
walked 
sat 
listened 
door 
answered 
Fx 0.000 0.025 0.050 0.075 0.100 
m 
thousand 
ten 
fortune 
settled 
wickham's gratitude 
children rest 
0.0 0.2 0.4 0.6 0.00 0.05 0.10 0.15 
iJ 
相似 度 
4-8: 在 《傲慢 与 偏见 》 中， 与 “elizabeth” “pounds” “married” “ptride” 最 相关 的 单词 
像 可 视 化 二 元 组 一 样 ， 可 以 使 用 ggraph 来 可 视 化 由 widyr 包 所 发 现 的 相关 性 和 单词 聚 艇 (如 图 4-9 所 示 ) 。 

















set.seed(2016) 


word cors %>% 
filter (correlation > .15 
graph from data_frame () 
ggraph (layout = "fr") + 
geom edge link(aes(edge alpha = correlation), show.legend = FALSE) + 
geom node point (color = "lightblue", size = 5) + 
geom node_text (aes (label = name), repel = TRUE) + 


theme void () 








concern gratitude pray 
home Stay regard — write 
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图 4-9 : 











注意 ， 与 二 元 组 分 析 不 同 ， 相 似 性 关系 是 对 称 的 ， 而 不 是 有 方向 性 的 〈 没 有 箭头 ) 。 同 时 还 可 以 看 出 ， 对 名 称 配对 和 基于 3 


《傲慢 与 偏见 》 中 的 单词 对 ， 对 具有 10 行 章节 的 相同 文本 的 相关 性 得 分 达 0.15 以 上 的 单词 对 进行 展示 





E 导 的 二 元 组 配对 的 标题 是 很 常见 的 ， 比 如 “colonel/fitzwilliam 





看 到 彼此 很 靠近 的 单词 配对 ， 比 如 “walk” 和 “park”， 或 “dance” 和 “ball” , 








本 章 表 明 整 洁 文 本 方法 不 仅 有 助 于 分 析 单 个 词汇 ， 而 且 可 














”， 也 可 以 





于 研究 单词 之 间 的 相关 性 和 联系 。 这 些 关系 可 能 涉及 n-grams， 通 过 n-grams 可 以 看 到 哪些 单词 会 出 现在 另外 一 些 单词 之 后 ,或 者 与 其 他 单 





词 共同 出 现 以 及 它们 之 间 的 相关 性 ， 本 章 还 介绍 了 ggraph 包 ， 该 包 以 网 络 的 形式 来 可 视 化 这 些 关系 类 型 。 这 些 网 络 可 视 化 方法 是 研究 相关 性 的 有 用 工具 ， 并 且 在 后 续 章节 的 案例 研究 中 将 发 挥 重要 作用 。 


第 5 章 “” 非 整洁 格式 转换 











前 面 几 章 一 直 基 于 整洁 文本 格式 来 分 析 文本 ， 所 谓 整洁 文本 格式 是 指 表 中 的 每 行为 文档 的 一 个 词 





条 (token per document per row) ， 例 如 可 由 函数 unnest_tokens () 构造 的 表 。 这 样 做 可 以 使 





























H 














整洁 工具 所 提供 的 所 有 流行 的 软件 包 (如 dplyr、tidyr 和 ggplot2) 来 研究 并 可 视 化 文本 。 从 前 面 的 内 容 可 知 : 利用 这 些 工 具 可 以 对 许多 信息 文本 进行 分 析 。 

















图 








然而 ， 除 了 tidytext 软 件 包 之 外 ， 大 多 数 现 有 的 基于 R 的 自然 语言 处 理工 具 都 不 兼容 这 种 格式 。 用 于 自然 语言 处 理 的 CRAN 任 务 视 








列 出 了 大 量 的 软件 包 ， 这 些 包 的 输入 必须 是 其 他 结构 的 数据 ， 



































出 非 整洁 格式 的 文本 。 这 些 软件 包 在 文本 数据 挖掘 的 应 用 程序 中 也 非常 有 用 ， 并 且 许 多 现 有 的 文本 数据 集 也 是 根据 这 些 格式 进行 结构 化 的 。 




















计算 机 科学 家 Hal Abelson 通 过 观察 认为 : “无 论 单个 操作 多 么 复杂 和 多 样 化 ， 通 常 操作 之 间 的 粘 合 质量 直接 决定 了 系统 的 能 力 ” (Abelson, 2008) 。 本 着 这 种 精神 ， 本 章 将 讨论 如 何 将 整洁 文本 格 























式 与 其 他 重要 的 包 和 数据 结构 相 结合 ， 以 便 能 依靠 现 有 的 文本 挖掘 软件 包 和 整套 整洁 工具 来 进行 文本 分 析 。 




















5-1 说 明了 分 析 如 何在 整洁 和 不 整洁 的 数据 结构 和 工具 之 间 进 行 转换 。 本 章 将 重点 介绍 如 何 对 整洁 文档 - 词 项 (document-term) 矩阵 进行 处 理 ， 以 及 如 何 将 整洁 数据 框 转换 为 稀 下 矩 阵 。 除 此 之 





外 ， 还 将 介绍 如 何 将 原始 文本 与 文档 元 数据 组 合 在 一 起 ， 从 而 把 “语料库 ”对 象 整理 成 文本 数据 框 ， 然 后 再 介绍 一 个 收集 和 分 析 金 融 文章 的 案例 。 


使 文档 - 词 项 扯 阵 整洁 











文本 挖掘 软件 包 最 常用 的 结构 之 一 是 文档 - 词 项 矩阵 (或 DTM) ， 该 矩阵 中 : 








“ 每 一 行 代表 一 个 文档 (如 书籍 或 文章 ) 。 


“ 每 一 列 代表 一 个 词 项 (term) 。 


-ME (通常 ) 包含 文档 中 词 项 的 出 现 次 数 。 


由 于 大 多 数 文档 并 没有 包含 某 些 词 项 ， 因 此 矩阵 的 相应 元 素 为 零 ， 于 是 DTM 通 常 为 稀 玻 和 矩阵。 这些 对 象 可 以 视 为 矩阵 (例如 ， 访 问 特 定 的 行 和 列 ) ， 只 是 存储 在 更 有 效 的 格式 中 。 本 章 将 讨论 实现 这 些 
和 矩阵 的 几 种 方法 。 
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dplyr dplyr, tidyr 









unnest tokens 
tidytext 






使 文本 整洁 







dplyr, tidyr 
tidy 
tidytext 







quanteda 






语料库 对 象 





quanteda 





tm, quanteda 











图 5-1: 典型 文本 分 析 流 程 图 ， 该 流程 图 将 tidytext 与 其 他 工具 (特别 是 tm 包 或 quanteda 包 ) 和 数据 格式 相 结合 。 本 章 将 介绍 如 何在 文档 - 词 项 答 阵 和 整理 数据 帧 之 间 来 回转 换 ， 以 及 如 何 将 语料库 对 象 转 换 为 

















文本 数据 框 

















DTM 对 象 不 能 直接 用 于 整洁 工具 ， 就 像 整 洁 数据 框 不 能 作为 大 多 数 文本 挖掘 包 的 输入 一 样 。 因 此 ， 为 了 在 两 种 格式 之 间 进 行 转换 ，tidytext 软 件 包 提供 了 两 个 函数 : 























-tidy () 将 文档 - 词 项 答 阵 转换 为 整洁 数据 框 。 在 broom 包 中 有 该 函数 (Robinson, 2017) ， 该 包 为 许多 统计 模型 和 对 象 提供 了 类 似 的 整洁 函数 。 


“ cast () 将 每 行 一 个 词 项 的 整洁 数据 框 变 成 一 个 矩阵 。tidytext 提 供 了 三 个 类 似 的 函数 ， 每 个 函数 能 转换 为 不 同类 型 的 矩阵 : cast sparse () (来 自 Matrix 包 ， 能 转换 为 稀 跤 矩阵 ) ，cast_dtm () (来 自 
， 能 转换 为 DocumentTermMatrix 对 象 ) , cast dfm () (来 从 quanteda 包 ， 能 转换 为 dtm 对 象 ) 。 

















如 图 5-1 所 示 ， 对 每 个 词 项 与 文档 的 组 合 ， 在 包含 了 计数 (或 其 他 统计 量 ) 的 count 或 group_by/summarize 操 作 之 后 ， 包 含 每 个 单词 和 文档 组 合 的 计数 或 其 他 统计 量 ，DTM 通 常 与 整洁 数据 框 相似 。 


使 DocumentTermMatrix 对 象 整洁 


























或 许 在 R 中 使 用 最 广泛 的 DTM 实 现 方式 是 tm 包 的 DocumentTermMatrix 类 。 许 多 可 用 的 文本 挖 握 数据 集 都 是 这 种 格式 ， 例 如 ， 在 topicmodels 包 中 搜集 了 美 联 社 (Associated Press, AP) 报纸 和 文 
章 。 

library (tm) 

data("AssociatedPress", package = "topicmodels") 

AssociatedPress 


## ««DocumentTermMatrix (documents: 2246, terms: 10473)»» 
## Non-/sparse entries: 302031/23220327 

## Sparsity 
## Maximal term length: 18 
## Weighting 


: 99$ 


: term frequency (tf) 











可 以 看 到 这 个 数据 集中 包含 的 文档 (每 篇 都 是 美 联 社 的 文章 ) 和 单词 (不 同 的 单词 ) 。 请 注意 ， 


B 
































这 个 DTM 的 99% 都 是 稀疏 的 (99% 的 文档 - 词 项 对 为 零 ) ， 可 以 使 用 Te 











rms () 函数 来 访问 文档 中 的 词 





terms «- Terms (AssociatedPress) 
head (terms) 


## [1] "aaron" "abandon" "abandoned" "abandoning" "abbott"  "abboud" 

















如 果 想 用 整洁 工具 来 分 析 这 些 数据 ， 首 先 需 











DocumentTermMatrix 对 象 实现 了 该 方法 。 


把 这 些 数 据 转换 成 每 行为 文档 的 一 个 词 条 的 数据 框 。broom 包 引入 了 tidy () 函数 ，tidy () 将 不 整洁 对 象 变 成 整洁 的 数据 框 。tidytext 包 针对 





library (dplyr) 
library (tidytext) 


ap td <- tidy (AssociatedPress) 


ap td 

HF # A tibble: 302,031 x 3 

HW document term count 
HW «int» «chr» «dbl» 
Hl 1 adding 1 
## 2 1 adult 2 
## 3 1 ago 1 
## 4 1 alcohol 1 
H5 1 allegedly 1 
H6 1 allen 1 
## 7 1 apparently 2 
## 8 1 appeared 1 
## 9 1 arrested 1 
## 10 1 assault 1. 
Heg 


请 注意 ， 现 在 tbl_df 为 整洁 的 三 列 : 分 别 为 document、term 和 count。 该 操作 类 与 


请 注意 ， 整 洁 输出 中 只 有 非 零 值 : 文档 1 包括 诸如 “adding” 和 “adult” 的 词 项 , 


正如 前 几 章 中 看 到 的 ， 这 种 格式 便于 使 























http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 302,021 more rows 


-FdERSWHRBPEBgreshape2&, (Wickham, 2007) 中 的 melt () 函数 相似 。 


而 没有 “aaron” 或 “abandon” ， 这 意味 着 整洁 版 本 没有 全 为 0 的 行 。 

















dplyr、tidytext 和 ggplot2 包 进行 分 析 。 例 如 ， 可 以 使 有 


第 2 章 介绍 的 方法 来 对 这 些 文章 进行 情感 分 析 。 











ap sentiments <- ap td $»$ 


inner join(get sentiments ("bing"), by - c(term - "word")) 


ap sentiments 
i # A tibble: 30,094 x 4 


dH document term count sentiment 
Hr «int» «chr» «dbl» «chr» 
Hl 1 assault 1 negative 
## 2 1 complex 1 negative 
H3 1 death 1 negative 
HA 1 died 1 negative 
## 5 1 good 2 positive 
## 6 1 illness 1 negative 
HET 1 killed 2 negative 
H8 1 like 2 positive 
H9 1 liked 1 positive 
## 10 1 miracle 1 positive 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 30,084 more rows 

















由 此 可 以 看 出 ， 在 美 联 社 的 文章 中 哪些 单词 最 常 导 致 正面 或 负面 的 情感 ， 如 图 5-2 所 示 ， 最 常见 的 正面 单词 有 “like”“work”“support” 和 “good”， 而 最 负面 的 和 
为 "killed” “death” 和 “vice”。 (算法 将 “vice” 作 为 否定 词 项 包 可 能 是 错误 的 ， 因 为 该 词 项 可 能 通常 指 “ 副 总 统 ”) 。 


library (ggplot2) 


ap sentiments %>% 


count(sentiment, term, wt = count) 


ungroup() %>% 
filter(n >= 200) %>% 




















S>% 


mutate (n = ifelse (sentiment == "negative", -n, n)) %>% 
mutate (term = reorder (term, n)) %>% 
ggplot (aes (term, n, fill = sentiment)) + 


geom bar (stat = "identity") + 


ylab ("Contribution to sentiment") + 


coord flip() 
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使 dfm 对 象 整洁 





dfm, 


图 5-2: 美 联 社 的 文章 中 对 正面 或 负面 情感 贡献 最 大 的 词 项 ， 由 该 词 项 的 AFINN 情 感 评分 及 其 频率 的 乘积 计算 得 到 





其 他 文本 挖掘 包 提 供 了 文档 - 词 项 矩阵 的 其 他 实现 ， 如 quanteda 包 (Benoit 和 Nulty，2016) 的 dfm (文档 特征 矩阵 ) 类 。 比 如 可 以 使 




















适当 的 函数 将 quanteda 包 中 关于 


总 统 就 职 演说 的 语料库 转换 为 








library (methods) 


data("data corpus inaugural", package - "quanteda") 


inaug dfm «- quanteda::dfm(data corpus inaugural, verbose 
inaug dfm 


## Document-feature matrix of: 58 documents, 9,232 features (91.6% sparse). 


FALSE) 





整洁 方法 也 适用 于 这 些 文档 -特征 矩阵 ， 并 将 其 转换 为 每 行为 文档 的 一 个 词 条 的 格式 。 











inaug td «- tidy(inaug dfm) 


inaug td 

## 4 A tibble: 44,725 
HW document 
u «chr» 
## 1 1789-Washington 
## 2 1793-Washington 
#3 1797-Adams 
## 4 1801-Jefferson 
## 5 1805-Jefferson 
## 6 1809-Madison 
HT 1813-Madison 
H8 1817-Monroe 
Ho 1821-Monroe 
## 10 1825-Adams 
Hg 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


x 3 
term count 


«chr» «dbl» 
fellow 3 
fellow EH 
fellow 3 
fellow 7 
fellow 8 
fellow 1 
fellow 1 
fellow 6 
fellow 10 
fellow 3 


with 44,715 more rows 





找 出 每 个 就 职 演说 中 最 特别 的 词 是 很 有 趣 的 事情 ， 这 可 以 使 








用 bind tf idf () 函数 计算 每 个 词 项 -演说 对 (term-speech pair) 的 tf-idf 值 来 得 到 ， 这 在 第 3 章 曾经 介绍 过 。 





inaug tf idf <- inaug td $»$ 
bind tf idf(term, document, count) %>% 


inaug tf idf 
## # A tibble: 44,725 x 6 


document 

<chr> 
1793-Washington 
1793-Washington 
1793-Washington 
1793-Washington 
1793-Washington 
1793-Washington 
1793-Washington 


wawm 必 wh 


arrange (desc (tf idf)) 


term count tf 

«chr» «dbl» «dbl» 
arrive 1 0.006802721 4 
upbraidings 1 0.006802721 4 
violated 1 0.006802721 3 
willingly 1 0.006802721 3. 
incurring 1 0.006802721 3 
previous 1 0.006802721 2 
knowingly 1 0.006802721 2 


idf 
«dbl» 


.060443 
.060443 
.367296 


367296 


.367296 
.961831 
.961831 


tf idf 
«dol» 


.02762206 
.02762206 
.02290677 
.02290677 
.02290677 
.02014851 
.02014851 


1 0.006802721 2.961831 0.02014851 
1 0.006802721 2.961831 0.02014851 


## 8  1793-Washington injunctions 
## 9 1793-Washington witnesses 
## 10 1793-Washington besides 1 0.006802721 2.674149 0.01819149 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 44,715 more rows 








可 以 从 这 些 数据 中 挑选 四 个 著名 的 就 职 演说 (如 林肯 总 统 、 罗 斯 福 总 统 、 肯 尼 迪 总 统 和 奥巴马 总 统 的 就 职 演说 ) ， 并 对 每 个 演说 中 最 特别 的 词 项 进行 可 视 化 ， 如 图 5-3 所 示 。 
还 有 另外 一 个 可 视 化 整洁 数据 的 例子 : 可 以 从 每 个 文档 的 名 称 中 提取 年 份 ， 并 计算 每 年 中 词 的 总 数 。 


入 请 注意 ， 已 经 通过 使 用 tidyr 的 complete () 函数 来 向 矩阵 中 填充 零 (文本 中 未 现 现 单 词 的 情况 ) 。 
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图 5-3: 在 每 个 选中 的 就 职 演说 中 ，tfidf 值 最 高 的 词 项 。 请 注意 ，quanteda 的 词 条 化 文本 包括 “? ”， 而 借助 nnest_tokens 词 条 化 的 文本 则 没有 





library (tidyr) 


year term counts <- inaug td %>% 
extract (document, "year", "(\\d+)", convert = TRUE) $5$ 
complete (year, term, fill = list (count = 0)) %>% 
group by (year) 3>% 
mutate(year total = sum (count) ) 





如 图 5-4 所 示 ， 选 择 几 个 单词 ， 并 随时 间 的 变化 来 可 视 化 词 项 频率 。 可 以 看 到 ， 随 着 时 间 的 推移 ， 美 国 总 统 不 太 可 能 将 国家 称 为 “union” ， 而 是 称 为 “America”， 而 且 也 不 太 可 能 谈 
论 “Constitution” 和 “foreign”， 而 是 提 到 “freedom” 和 “God” , 








year term counts %>% 

filter(term $in$ c("god", "america", "foreign", 
"union", "constitution", "freedom")) %>% 

ggplot (aes (year, count / year total)) + 
geom point() + 
geom smooth() + 
facet wrap(- term, scales 
scale y continuous (labels 
ylab("$ frequency of word 


= "free y") + 
= scales::percent format()) + 
in inaugural address") 
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图 5-4: 在 选 定 的 四 位 总 统 的 就 职 演说 中 ， 词 项 频率 随时 间 的 变化 情况 〈X 轴 : 年 份 ，Y 轴 : 就 职 演说 中 词 频 的 百分比 ) 


这 些 例子 展示 了 如 何 使 用 整洁 文本 以 及 相关 的 整洁 工具 来 分 析 原 始 文本 ， 即 使 原始 文本 不 是 整洁 格式 。 


将 整洁 文本 数据 转换 为 矩阵 


正如 一 些 现 有 的 文本 挖掘 软 件 包 将 文档 - 词 项 矩阵 作为 样本 数据 或 输出 一 样 ， 一 些 算法 也 期 望 将 这 样 的 矩阵 作为 输入 。 因 此 ，tidytext 提 供 了 一 系列 的 cast 函数 来 将 整洁 数据 转换 为 这 样 的 矩阵 。 


例如 ， 可 以 使 用 整洁 的 美 联 社 数据 集 ， 并 使 用 cast_dtm () 函数 将 其 转换 成 文档 - 词 项 矩阵 。 





ap td %>% 
cast dtm(document, term, count) 


## ««DocumentTermMatrix (documents: 2246, terms: 10473)»» 
## Non-/sparse entries: 302031/23220327 

## Sparsity : 99% 

## Maximal term length: 18 

## Weighting : term frequency (tf) 





类 似 地 ， 可 以 使 用 cast_dfm () 将 表 转 换 成 quanteda 包 的 dfm 对 象 。 





ap td 3>% 
cast dfm(term, document, count) 


## Document-feature matrix of: 10,473 documents, 2,246 features (98.7$ sparse). 





—ETRHECRINSBABEE. 





library (Matrix) 


4 cast into a Matrix object 
m <- ap td %>% 
cast sparse(document, term, count) 


class (m) 

## [1] "dgCMatrixn 
## attr(,"package") 
## [1] "Matrix" 


dim (m) 


## [1] 2246 10473 





本 书 所 使 用 的 整洁 文本 结构 都 适用 于 这 种 转换 。 例 如 ， 可 以 通过 几 行 代码 创建 Jane Austen 数 据 集 的 DTM 。 





library (janeaustenr) 


austen dtm <- austen books() %>% 
unnest tokens (word, text) %>% 
count (book, word) %>% 
cast dtm(book, word, n) 


austen dtm 


## ««DocumentTermMatrix (documents: 6, terms: 14520)»» 
## Non-/sparse entries: 40379/46741 

## Sparsity : 54% 

## Maximal term length: 19 

## Weighting : term frequency (tf) 















































这 种 转换 过 程 允 许 使 用 dplyr 和 其 他 整洁 工具 进行 读 取 、 过 滤 和 处 理 操作 ， 然 后 将 数据 转换 成 机 器 学 习 应 用 程序 所 需要 的 文档 - 词 项 矩阵 。 第 6 章 将 讨论 如 何 将 整洁 文本 数据 集 转 换 为 
DocumentTermMatrix 然 后 再 进行 处 理 的 示例 。 











使 有 元 数据 的 语料库 对 象 整 洁 








在 词 条 化 之 前 就 设计 了 一 些 数据 结构 来 存储 文档 集合 (通常 称 为 “语料库 ”) 。 一 个 常见 的 例子 就 是 来 自 tm 包 的 Corpus 对 象 ， 该 结构 将 元 数据 与 文本 一 起 存储 ， 其 中 元 数据 可 能 包含 每 个 文档 的 1D、 
日 期 /时 间 、 标 题 或 语言 。 


例如 ，tm 包 附带 了 acq 语 料 库 ， 它 包含 来 自 路 透 社 的 50 篇 文章 。 





data ("acq") 
acq 


## «Corpus?» 
## Metadata: corpus specific: 0, document level (indexed): 0 
## Content: documents: 50 


# first document 
acq[[1]] 


## ««PlainTextDocument»» 
## Metadata: 15 
## Content: chars: 1287 





























Corpus 对 象 的 结构 类 似 于 列表 (list) ， 每 个 项 目 都 包含 文本 和 元 数据 (有 关 使 用 Corpus 对 象 的 更 多 信息 ， 请 参阅 tm 文档 ) 。 这 是 一 种 灵活 的 文档 存储 方法 ， 但 不 适合 用 整洁 工具 进行 处 理 。 



































因此 ， 可 以 使 用 tidy () 方法 来 构造 一 个 每 行 只 有 文档 的 一 个 词 条 的 表 ， 包 括 将 元 数据 (如 id 和 datetimestamp) 作为 text 旁 边 的 列 。 








acq td <- tidy (acq) 


acq_td 

## # A tibble: 50 x 16 

dH author datetimestamp description 

HW «chr» «dttm» «chr» 

## 1 <NA> 1987-02-26 10:18:06 

## 2 <NA> 1987-02-26 10:19:15 

#3 <NA> 1987-02-26 10:49:56 

## 4 By Cal Mankowski, Reuters 1987-02-26 10:51:17 

## 5 <NA> 1987-02-26 11:08:33 

H6 «NA» 1987-02-26 11:32:37 

HT By Patti Domm, Reuter 1987-02-26 11:43:13 

H8 «NA» 1987-02-26 11:59:25 

## 9 <NA> 1987-02-26 12:01:28 

## 10 <NA> 1987-02-26 12:08:27 

Hr heading id language 
HW «chr» «chr» «chr» 
HI COMPUTER TERMINAL SYSTEMS «CPML» COMPLETES SALE 10 en 
## 2 OHIO MATTRESS <OMT> MAY HAVE LOWER 1ST QTR NET 12 en 
H3 MCLEAN'S «MII» U.S. LINES SETS ASSET TRANSFER 44 en 
## 4 CHEMLAWN <CHEM> RISES ON HOPES FOR HIGHER BIDS 45 en 
H5 <COFAB INC» BUYS GULFEX FOR UNDISCLOSED AMOUNT 68 en 
## 6 INVESTMENT FIRMS CUT CYCLOPS <CYL> STAKE 96 en 
## 7 AMERICAN EXPRESS <AXP> SEEN IN POSSIBLE SPINNOFF 110 en 
## 8 HONG KONG FIRM UPS WRATHER<WCO> STAKE TO 11 PCT 125 en 
H9 LIEBERT CORP «LIEB» APPROVES MERGER 128 en 
## 10 GULF APPLIED TECHNOLOGIES «GATS» SELLS UNITS 134 en 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 40 more rows, and 10 more variables: language «chr», origi 
## # — topics «chr», lewissplit «chr», cgisplit «chr», oldid «chr», 
## # — places «list», people «lgl», orgs «lgl», exchanges «lgl», text «chr» 











然后 可 以 使 用 unnest tokens () 在 路 透 社 的 50 篇 文章 中 找到 最 常见 的 单词 ， 或 每 篇 文章 中 最 特别 的 单词 。 














acq tokens <- acq td %>% 
select(-places) $»$ 
unnest tokens (word, text) 
anti join(stop words, by = 





# most common words 
acq tokens %>% 
count(word, sort = TRUE) 


## # A tibble: 1,566 x 2 


Hr word n 
HW «chr» «int» 
Hl dirs 100 
H2 pct 70 
## 3 mln 65 
## 4 company 63 
H5 shares 52 
H6 reuter 50 
#7 stock 46 
## 8 offer 34 
Ho share 34 
## 10 american 28 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 1,556 more rows 
# t£-idf 


acq tokens %>% 
count (id, word) %>% 
bind tf idf (word, id, n) %>% 
arrange (desc (tf idf)) 


## Source: local data frame [2,853 x 6] 
## Groups: id [50] 


HW 

dH id word n f idf tf idf 
## «chr» — «chr» int» «dol»  «dbl» «dbl» 
## 1 186 groupe 2 0.13333333 3.912023 0.5216031 
## 2 128 liebert 3 0.13043478 3.912023 0.5102639 
H3 474 esselte 5 0.10869565 3.912023 0.4252199 
## 4 371 burdett 6 0.10344828 3.912023 0.4046920 
## 5 442 hazleton 4 0.10256410 3.912023 0.4012331 
H6 199 circuit 5 0.10204082 3.912023 0.3991860 
## 7 162 suffield 2 0.10000000 3.912023 0.3912023 
## 8 498 west 3 0.10000000 3.912023 0.3912023 
## 9 441 rmj 8 0.12121212 3.218876 0.3901668 
## 10 467 nursery 3 0.09677419 3.912023 0.3785829 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,843 more rows 





示例 : 挖掘 金融 文章 














Corpus 对 象 是 数据 文摘 包 常 用 的 格式 ， 这 意味 着 可 使 
WebCorpus (GoogleFinanceSource ("NASDAQ: MSFT") ) ) 获得 与 Microsoft (MSFT) 股票 相关 且 最 新 的 20 篇 文章 。 




















下 面 将 检索 与 九 大 科技 股 (REX. FR GER. MEESM Facebook, Twitter, IBM, 雅虎 和 Netflix) 相关 的 最 新 文章 。 





tidy () 函数 来 访问 各 种 文本 数据 。 例 如 ，tm.plugin.webmining 连 接 到 在 线 订阅 源 ， 以 基于 关键 字 检 索 新 闻 文章 。 比 如 ,执行 














饼 这 些 结果 于 2017 年 1 月 下 载 ， 这 也 是 编写 本 章 的 时 间 ， 若 读者 现在 运行 这 个 程序 ， 一 定 会 得 到 不 同 的 结果 。 请 注意 ， 此 代码 需 





运行 几 分 钟 。 





library (tm.plugin.webmining) 
library (purrr) 


company <- c("Microsoft", "Apple", "Google", "Amazon", "Facebook", 
"Twitter", "IBM", "Yahoo", "Netflix") 
symbol <- c("MSFT", "AAPL", "GOOG", "AMZN", "FB", "TWTR", "IBM", "YHOO", "NELX") 


download articles <- function (symbol) { 
WebCorpus (GoogleFinanceSource (Paste0 ("NASDAQ:", symbol) )) 
} 


stock articles <- data frame (company = company, 


symbol = symbol) $»$ 
mutate (corpus = map (symbol, download articles)) 

















这 里 使 











stock articles 


## # A tibble: 9 x 3 

dH company symbol corpus 
HW Xchr» «chr» «list» 
## 1 Microsoft MSFT «S3: WebCorpus» 
H2 Apple AAPL «83: WebCorpus» 
H3 Google GOOG «S3: WebCorpus» 
## 4 Amazon AMZN <S3: WebCorpus> 
## 5 Facebook FB <S3: WebCorpus> 
## 6 Twitter TWTR «S3: WebCorpus> 
## 7 IBM IBM «S3: WebCorpus» 
## 8 Yahoo YHOO «S3: WebCorpus> 
## 9 Netflix NFLX «S3: WebCorpus> 








了 purrr 包 中 的 map () 函数 ， 该 函数 通过 对 symbol 中 的 每 项 进行 处 理 来 创建 列表 ， 该 列表 存储 在 corpus 列 表 对 应 的 列 中 。 





corpus 列 表 的 每 项 都 是 一 个 WebCorpus 对 象 ， 这 是 一 个 语料库 (比如 acq) 的 特殊 情况 。 因 此 ， 可 以 使 用 tidy () 函数 将 每 个 变量 转换 成 数据 框 ， 使 有 





unnest tokens () 词 条 化 每 篇 文章 的 text 列 。 





























tidyr 的 unnest () 函数 进行 处 理 ， 然 后 使 











stock tokens <- stock articles %>% 
unnest (map (corpus, tidy)) %>% 
unnest_tokens (word, text) %>% 
select (company, datetimestamp, word, id, heading) 


stock_tokens 


## # A tibble: 105,057 x 5 

dH company datetimestamp word 
HW «chr» «dttm» «chr» 
## 1 Microsoft 2017-01-17 07:07:24 microsoft 
## 2 Microsoft 2017-01-17 07:07:24 corporation 
## 3 Microsoft 2017-01-17 07:07:24 data 
## 4 Microsoft 2017-01-17 07:07:24 privacy 
## 5 Microsoft 2017-01-17 07:07:24 could 
## 6 Microsoft 2017-01-17 07:07:24 send 
## 7 Microsoft 2017-01-17 07:07:24 msft 
## 8 Microsoft 2017-01-17 07:07:24 stock 
## 9 Microsoft 2017-01-17 07:07:24 soaring 
## 10 Microsoft 2017-01-17 07:07:24 by 


## # http://www. 


hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 105,047 more rows, and 2 more variables: id «chr», headinc 


























可 以 看 到 每 篇 文章 的 元 数据 以 及 所 使 





的 单词 。 使 











tf-idf 值 来 确定 每 只 股票 符号 中 最 特别 的 单词 。 











library (stringr) 


Stock tf idf <- stock tokens %>% 
count (Company, word) $>% 
filter (!str detect (word, "\\d+")) 
bind tf idf(word, company, n) %>% 
arrange (-tf idf) 























5-5 中 显示 了 排名 靠 前 的 词 项 ， 正 如 所 期 望 的 那样 ， 公 司 的 名 称 和 标志 通常 包括 在 其 中 ， 但 是 几 个 产品 和 高 管 以 及 正在 进行 交 


[ 
































如 果 有 兴趣 使 用 最 新 的 消息 来 分 析 市 场 并 进行 投资 决策 ， 那 么 可 能 想 
献 ， 如 第 2 章 的 “最 常见 的 正面 单词 和 负面 单词 ”一 节 所 述 。 例 如 ， 可 以 入 












































AFINN 词 典 ( 见 图 5-6) 进行 查找 。 


























易 的 公司 (如 迪士尼 与 Netflix) 也 包括 在 其 中 。 


情感 分 析 来 确定 新 闻 报道 是 正面 的 还 是 负面 的 。 在 进行 这 样 的 分 析 之 前 ， 应 该 看 看 什么 词 会 对 正面 和 负面 的 情感 做 出 最 大 的 贡 
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图 5-5: 在 每 个 公司 最 近 的 文章 中 ，tf-idf 值 最 高 的 8 个 单词 





stock tokens %>% 
anti join(stop words, by = "word") %>% 
count (word, id, sort = TRUE) %>% 
inner join(get sentiments ("afinn"), by = "word") %>% 
group by(word) 3>% 
summarize (contribution = sum(n * score)) %>% 
top n(12, abs(contribution)) $»$ 
mutate (word = reorder (word, contribution)) %>% 
ggplot (aes (word, contribution)) + 
geom col() + 
coord flip() + 
labs (y = "Frequency of word * AFINN score") 
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图 5-6: 基于 AFINN 词 典 ， 查 找 最 近 的 金融 文章 中 对 情感 评分 贡献 最 大 的 单词 ， 


“conttibution” 是 词 频 和 情感 评分 的 乘积 


对 于 金融 文章 的 分 析 ， 有 几 点 需要 注意 的 地 方 。 “share” 和 “shares” 会 被 AFINN 词 典 认为 是 积极 的 词 (“Alice will share her cake with Bob" ) ， 而 在 积极 的 句子 中 虽然 是 中 性 名 词 (“The 
欺骗 性 : 该 词 指 的 是 一 家 金融 服务 公司 Motley Fool。 简 而 言 之 ，AFINN 情 感 词汇 完全 不 适合 金融 方面 文本 数据 的 分 析 


stock price is$12 per share" ) 却 又 很 容易 被 认为 是 负面 词 。 
(NRC 和 Bing 词 典 也 不 适合 ) 。 








Loughran 数 据 将 词语 分 为 6 种 情感 : “positive” "negative"  "litigious" 























“fool” 一 词 更 


"uncertain" 











"constrai-ning" #0 “superfluous” , Ei^ote zzv zii 


因此 这 里 需要 引入 另外 一 种 情感 词汇 : Loughran 和 McDonald 的 金融 情感 词汇 (Loughran 和 McDonald，2011) 。 该 词典 是 根据 金融 报告 分 析 而 开发 的 ， 有 意 避 免 了 诸如 “share” 
汇 ， 以 及 在 金融 背景 下 可 能 没有 负面 意思 词 项 (比如 “liability” 和 “risk” 等 ) 。 


居 集 中 





“fool ”等 词 














属于 每 种 情感 的 最 常见 词 (如 图 5-7 所 示 ) 。 














stock tokens %>% 
count (word) $»$ 


inner_join(get_sentiments ("loughran"), by = "word") %>% 


group _by (sentiment) $»$ 
top n(5, n) %>% 
ungroup() $»$ 
mutate (word = reorder (word, n)) %>% 
ggplot (aes (word, n)) + 

geom col() + 

coord flip() + 

facet wrap (~ sentiment, scales = "free") + 





ylab("Frequency of this word in the recent financial articles") 
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最 近 金 融 文 章 中 这 些 单 词 的 词 频 

















5-7: 在 金融 新 闻 文 章 中 与 6 种 情感 相关 的 最 常见 的 词汇 (基于 Loughran 和 McDonald 词 典 ) 














从 图 5-7 可 以 看 出 对 这 些 词 按 这 样 分 配 会 更 加 合理 : 一 般 正面 的 词 包括 “strong” 和 “better”， 而 不 是 “shares” sk "growth" , 而 负 | 
合理 的 : 属于 不 确定 (uncertainty) 的 最 常见 词 有 “could” 和 “may”。 





Ej 


的 词 则 包括 “volatility” 而 不 是 “fool”。 其 他 情感 词 也 是 
































既然 可 以 根据 这 些 词典 来 大 致 获取 文章 的 意图 ， 那 么 就 可 以 使 用 经 典 方法 进行 分 析 ， 即 计算 每 个 语料库 中 与 情感 相关 词汇 的 使 用 次 数 。 




















stock sentiment count <- stock tokens %>% 
inner join(get sentiments ("loughran"), by = "word") %>% 
count (sentiment, company) %>% 
spread (sentiment, n, fill = 0) 


stock_sentiment_count 


## # A tibble: 9 x 7 
## company constraining litigious negative positive superfluous uncertainty 


H~ <chr> «dbl» <dbl> «dbl» «dbl» «dbl» «dbl» 
## 1 Amazon 7 8 84 144 3 70 
H2 Apple 9 11 161 156 2 132 
## 3 Facebook 4 32 128 150 4 81 
HA Google 7 8 60 103 0 58 
H5 IBM 8 22 147 148 0 104 
## 6 Microsoft 6 19 92 129 E 116 
## 7 Netflix 4 7 111 162 0 106 
## 8 Twitter 4 12 157 79 1 75 
Ho Yahoo 3 28 130 74 0 71 
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， 就 像 第 2 章 中 的 大 多 数 分 析 一 

















需要 查找 哪个 公司 具有 最 多 包含 “好 打 官 司 ” (litigious) 或 “不 确定 ” (uncertain) 项 的 消息 可 能 是 一 件 有 趣 的 事情 。 最 简单 的 实现 是 看 消息 是 否 更 正 
样 。 使 用 (positive-negative) / (positive+negative) 来 度量 情感 (如 图 5-8 所 示 ) 。 




















stock sentiment count %>% 
mutate (score = (positive - negative) / (positive + negative)) %>% 
mutate (company = reorder (company, score)) %>% 
ggplot (aes (company, score, fill = score > 0)) + 
geom col(show.legend = FALSE) + 
coord flip() + 
labs (x = "Company", 
y = "Positivity score among 20 recent news articles") 
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在 最 近 的 20 篇 新 闻 稿 中 正面 词汇 的 得 











图 5-8: 对 每 个 公司 相关 的 20 篇 最 新 的 新 闻 稿 进行 分 析 ， 查 看 正面 和 负面 词汇 的 使 用 情况 ，2017 年 1 月 每 只 股票 的 新 闻 报道 为 “Positivity” 的 计算 公式 为 (positive - negative) / (positive+negative) 








根据 分 析 结果 ， 在 2017 年 1 月 ， 雅 虎 和 Twitter 的 大 部 分 报道 都 是 负面 的 ， 而 谷歌 和 亚马逊 的 报道 最 为 正面 ， 目 前 的 金融 头条 显示 这 些 公 司 处 于 上 升 期 。 如 果 有 兴趣 进一步 分 析 ， 可 以 使 用 R 的 许多 量化 
金融 包 将 这 些 文 章 与 最 近 的 股票 价格 和 相关 会 议 进行 比较 。 





总 结 


LN 一口 


文本 分 析 需 要 使 用 各 种 工具 ， 许 多 工具 的 输入 和 输出 支持 不 整洁 格式 的 数据 。 本 章 展示 了 如 何在 整洁 的 文本 数据 框 和 稀疏 文档 - 词 项 矩阵 之 间 进 行 转换 ， 以 及 如 何 使 包含 文档 元 数据 的 语 料 对 象 变 整洁 。 
下 一 章 将 展示 另 一 个 新 的 示例 : 主题 模型 。 该 模型 需要 输入 文档 - 词 项 矩阵， 该 示例 表明 这 些 转换 工具 是 文本 分 析 的 重要 组 成 部 分 。 





第 6 章 HAER 


在 文本 挖掘 中 ， 文 档 集合 经 常 来 自 博客 文章 或 新 闻 文章 ， 人 们 很 希望 将 这 些 文档 分 组 ， 以 便 分 别 了 解 它们 。 主 题 建 模 就 是 对 这 些 文档 进行 无 监督 分 类 的 方法 ， 这 类 似 于 数字 数据 的 聚 类 ， 即 使 预先 并 不 
知道 要 寻找 什么 内 容 ， 也 仍 可 找到 这 些 文档 的 分 组 。 


LDA (Latent Dirichlet Allocation) 是 一 种 非常 流行 的 主题 模型 方法 。 该 方法 认为 每 份 文 档 是 由 一 些 主题 组 合 而 成 的 ， 而 每 个 主题 又 由 单词 组 合 而 成 ， 这 样 就 会 使 文档 内 容 出 现 彼此 “ 重 雪 ” ， 而 不 是 
以 自然 语言 中 经 典 的 方式 来 划分 成 离散 组 。 


如 图 6-1 所 示 ， 可 以 使 用 整洁 文本 原理 来 实现 主题 建 模 ， 仍 采用 整 本 书 都 涉及 的 整洁 工具 。 本 章 将 学 习 使 用 topicmodels 包 中 的 LDA 对 象 ， 让 这 些 模型 变 得 整洁 ， 以 便 能 使 用 ggplot2 包 和 dplyr 包 。 本 章 
还 将 基于 几 本 书 的 章节 给 出 一 个 聚 类 的 例子 ， 该 例子 的 主题 模型 将 “学 习 ” 如 何 根据 文本 内 容 来 说 明 四 本 书 之 间 的 区 别 。 














情感 词典 







group_by 
summarize 
inner join 


dplyr dplyr, tidyr 









unnest tokens 










dplyr, tidyr 








tidy 
tidytext 


tm, 
quanteda 


ggplot2 








tidy 
tidytext 













整洁 模型 





语料库 对 象 








tidytext 





quanteda topicmodels 


tm, quanteda dplyr, tidyr 











图 6-1: 基于 主题 建 模 的 文本 分 析 流程 图 ，topicmodels 包 将 文档 — 词 项 矩阵 作为 输入 ， 所 产生 的 模型 能 通过 tidytext 变 得 整洁 ， 从 而 可 以 采用 dplyr 包 和 ggplot2 包 进行 操作 和 可 视 化 


LDA 














LDA (Latent Dirichlet Allocation) 是 主题 建 模 最 常用 的 算法 之 一 ， 这 里 不 对 该 算法 的 数学 理论 进行 介绍 ， 只 通过 两 个 原则 来 理解 该 算法 : 











每 个 文档 都 由 主题 生成 








假设 每 个 文档 可 能 包含 几 个 主题 ， 并 且 不 同 主题 在 文档 中 的 比例 不 同 ， 例 如 ， 在 一 个 双 主 题 模 型 中 ， 可 以 说 “文档 1 包含 90% 的 主题 A 和 10% 的 主题 B， 而 文档 2 包含 30% 的 主题 A 和 70% 的 主题 B。“ 














每 个 主题 都 由 词 生 成 





例如 ， 可 以 想象 一 个 双 主 题 模型 的 美国 新 闻 : “politics” SERRE] "entertainment" 主题 。 政 治 话题 中 最 常见 的 词 可 能 是 “President” “Congress” 和 “government”， 而 娱乐 话题 可 能 
FH "movies" "television" “actor” 等 词组 成 。 重 要 的 是 ， 词 可 以 在 主题 之 间 共 享 ， 像 “budget” 这 样 的 词 可 能 在 两 个 主题 中 按 相同 的 比例 出 现 。 











LDA 是 一 种 用 于 同时 估计 这 两 者 的 数学 方法 : 找到 与 每 个 主题 相关 的 单词 组 合 ， 同 时 还 确定 描述 每 个 文档 的 主题 的 组 合 。 该 算法 有 很 多 现 有 的 实现 ， 这 里 将 深入 探讨 其 中 的 一 种 。 

















在 第 5 章 的 DocumentTermMatrix 例 子 中 简单 介绍 了 AssociatedPress 数 据 集 ， 它 是 由 topicmodels 包 提供 的 。 该 数据 集 由 美 联 社 的 2246 篇 新 闻 报道 组 成 ， 并 且 大 部 分 报道 是 在 1988 年 左右 出 版 的 。 





library (topicmodels) 


data ("AssociatedPress") 
AssociatedPress 


## ««DocumentTermMatrix (documents: 2246, terms: 10473)»» 
## Non-/sparse entries: 302031/23220327 

## Sparsity : 99$ 

## Maximal term length: 18 

## Weighting : term frequency (tf) 








可 以 使 用 topicmodels 包 中 的 LDA () 函数 ， 设 置 该 函数 的 参数 K= 2 就 可 创建 一 个 双 主 题 的 LDA 模 型 。 





























入 实际 上 几乎 任何 主题 模型 都 会 使 用 更 大 的 k， 在 本 章 后 面 会 介绍 如 何 将 这 种 分 析 方法 扩展 至 更 多 的 主题 。 

















该 函数 返回 一 个 包含 模型 拟 合 完整 信息 的 对 象 ， 例 如 词 是 如 何 与 主题 相关 联 的 ， 以 及 主题 如 何 与 文档 相关 联 。 





# set a seed so that the output of the model is predictable 
ap lda <- LDA (AssociatedPress, k = 2, control = list(seed = 1234)) 
ap_lda 


## A LDA VEM topic model with 2 topics. 














拟 合 模型 是 很 容易 的 ， 其 余 的 分 析 会 涉及 如 何 使 用 tidytext 包 中 的 整洁 函数 来 研究 和 解释 模型 。 








词 与 主题 的 概率 








第 5 章 介绍 了 如 何 利用 broom 包 (Robinson, 2017) 中 的 tidy () 方法 来 让 模型 对 象 变 得 整洁 。tidytext 包 提供 了 用 于 从 模型 中 提取 称 为 ("beta") 变量 的 方法 ， 其 中 ， 表 示 每 个 词 与 主题 模型 组 合 的 














library (tidytext) 


ap topics <- tidy(ap lda, matrix = "beta") 


ap topics 

## # A tibble: 20,946 x 3 

dH topic term beta 
HW «int» «chr» «dbl» 
HI i aaron 1.686917e-12 
H2 2 aaron 3.895941e-05 
H3 1 abandon 2.654910e-05 
HA 2 abandon 3.990786e-05 
H5 1 abandoned 1.390663e-04 
## 6 2 abandoned 5.876946e-05 
HET 1 abandoning 2.454843e-33 
H8 2 abandoning 2.337565e-05 
H9 $ abbott 2.130484e-06 
## 10 2 abbott 2.968045e-05 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 20,936 more rows 





注意 ， 这 里 已 经 将 模型 转换 为 词 与 主题 的 格式 。 对 于 每 个 组 合 ， 该 模型 通过 主题 计算 词 的 概率 。 例 如 ， 词 “aaron” 从 主题 1 生成 的 概率 为 1.686917x10-12， 而 从 主题 2 生成 的 概率 为 3.8959408x10- 





可 以 使 用 dplyr 的 top_n () 来 查找 每 个 主题 中 最 常见 的 10 个 词 。 由 于 这 是 一 个 整洁 数据 框 ， 可 以 使 用 ggplot2 包 进行 可 视 化 (如 图 6-2 所 示 ) 。 





library (ggplot2) 
library (dplyr) 


ap top terms <- ap topics %>% 
group by(topic) $»$ 
top n(10, beta) $»$ 
ungroup() %>% 
arrange (topic, -beta) 


ap_top_terms %>% 
mutate (term = reorder (term, beta)) %>% 
ggplot (aes (term, beta, fill = factor (topic))) + 
geom col(show.legend = FALSE) + 
facet wrap(~ topic, scales = "free") + 
coord flip() 
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图 6-2: 每 个 主题 中 最 常见 的 词汇 


通过 可 视 化 就 能 理解 从 文章 中 提取 的 两 个 主题 。 主 题 1 中 最 常见 的 词 包括 “percent”“million”“billion” 和 “company”， 这 表明 可 能 是 商业 或 金融 新 闻 。 主 题 2 中 最 常见 的 词 
是 “president”“government” 和 “soviet”， 这 表明 该 主题 可 能 是 政治 新 闻 。 对 每 个 主题 中 的 词 ， 会 观察 到 这 样 一 个 重要 结果 : 在 这 两 个 主题 之 间 , 一 些 词 (如 “new” 和 “people”) 都 是 常见 的 。 
这 是 主题 建 模 与 “ 硬 聚 类 ” (hard clustering) 方法 相 比 的 一 个 优点 : 自然 语言 分 析 中 可 能 会 使 用 一 些 重 雪 的 词汇 。 





作为 替代 方案 ， 可 以 对 主题 1 和 主题 2 之 间 B 差 异 最 大 的 词汇 进行 分 析 。 这 可 以 根据 两 者 的 对 数 之 比 来 估计 : (4), 


从 对 数 比 是 有 用 的 ， 因为 可 以 使 差异 对 称 : 对 数 比 为 1 表明 B2 是 B1 的 两 倍 ， 对 数 比 为 -1 表明 B1 是 B2 的 两 倍 。 





可 通过 过 滤 相 对 常见 的 词 来 得 到 一 组 特别 相关 的 词 ， 例 如 至 少 在 一 个 主题 中 值 大 于 1/1000 的 词 。 





library (tidyr) 


beta spread <- ap topics $»$ 
mutate (topic = paste0 ("topic", topic)) %>% 
spread (topic, beta) $»$ 
filter(topicl > .001 | topic2 > .001) %>% 
mutate(log ratio = log2(topic2 / topicl)) 


beta spread 


## # A tibble: 198 x 4 


Hr term topicl topic2 log ratio 
HW «chr» «dbl» «dbl» <gdbl> 
## 1 administration 4.309502e-04 1.382244e-03 1.6814189 
H2 ago 1.065216e-03 8.421279e-04  -0.3390353 
H3 agreement 6.714984e-04 1.039024e-03 0.6297728 
## 4 aid 4.759043e-05 1.045958e-03 4.4580091 
H5 air 2.136933e-03 2.966593e-04 -2.8486628 
## 6 american 2.030497e-03 1.683884e-03 -0.2700405 
HET analysts 1.087581e-03 5.779708e-07 -10.8778386 
## 8 area 1.371397e-03 2.310280e-04 -2.5695069 
## 9 army 2.622192e-04 1.048089e-03 1.9989152 
# asked 1.885803e-04 1.559209e-03 3.0475641 


# 10 
## # http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17479/0EBPS/Text/... with 188 more rows 








到 6-3 给 出 了 两 个 主题 之 间 差 异 最 大 的 单词 。 








democratic 
dukakis 
republican 
gorbachev 

trial 

vote 

campaign 
senate 
presidential 

HEX prison 
[Im rates 
fell 

rate 

prices 

dollar 

stock 

average 

cents 

index 

yen 


-100 


en 
eo 


-50 0 
在 主题 2/ 主题 1 中 以 2 为 底 的 B 比率 











6-5: 主题 2 与 主题 1 之 间 B 差 异 最 大 的 单词 








可 以 看 到 主题 2 中 更 常见 的 词语 为 “democratic” 和 “republican” 等 政党 , 以 及 “dukakis” 和 “gorbachev” 等 政治 家 的 名 字 。 主 题 1 的 特点 是 有 像 “yen” 和 “dollar” 这 样 的 货 和 





如 “index”“prices” 和 “rates” 等 金融 单词 。 通 过 这 些 结果 可 知道 算法 识别 的 两 个 主题 分 别 为 政治 和 金融 新 闻 。 


文档 与 主题 的 概率 
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除了 将 每 个 主题 作为 词 的 组 合 来 估计 外 ，LDA 还 将 每 个 文档 作为 主题 的 组 合 来 进行 建 模 。 可 以 设置 tidy () 函数 的 参数 matrix= “gamma” 来 得 到 每 份 每 个 主题 的 概率 ， 称 为 v ( "gamma" ) . 








ap documents «- tidy(ap lda, matrix - "gamma") 
ap documents 


## # A tibble: 4,492 x 3 


HW document topic gamma 
Hu «int» «int» «dbl» 
## 1 1 1 0.2480616686 
## 2 2 1 0.3615485445 
H3 3 1 0.5265844180 
## 4 4 1 0.3566530023 
HS 5 1 0.1812766762 
## 6 6 1 0.0005883388 
HT Ri 1 0.7734215655 
## 8 8 1 0.0044516994 
## 9 9 1 0.9669915139 
## 10 10 1 0.1468904793 
## # http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17479/0EBPS/Text/... with 4,482 more rows 





这 里 的 每 一 个 值 都 是 文档 中 单词 的 估计 比例 ， 这 些 文档 是 由 不 同 主题 生成 的 。 例 如 ， 该 模型 估计 文档 1 中 仅 有 约 24.8% 的 单词 是 从 主题 1 生成 的 。 

















可 以 看 到 ， 有 许多 文档 是 从 两 个 主题 生成 的 ， 但 文档 6 几乎 完全 来 自主 题 2， 因 为 主题 1 的 Y 接 近 零 。 为 了 检查 该 答案 ， 可 以 对 文档 - 词 项 矩阵 使 用 tidy () 函数 (请 参阅 第 5 章 的 “整洁 文档 - 词 项 矩 






































阵 ”一 节 的 内 容 ) ， 并 检查 该 文档 中 最 常用 的 单词 。 











tidy (AssociatedPress) $%>% 
filter (document == 6) 
arrange (desc (count) ) 








## # A tibble: 287 x 3 
dH document term count 
HW «int» «chr» «dbl» 


HI 6 noriega 16 
## 2 6 panama 12 
H3 6 jackson 6 
## 4 6 powell 6 
## 5 6 administration 5 
## 6 6 economic 5 
## 7 6 general 5 
## 8 6 1. 5 
## 9 6 panamanian 5 
## 10 6 american 4 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 277 more rows 























于 主题 2 (政治 /国家 新 闻 ) ， 这 样 做 是 正确 的 。 























根据 这 些 最 常见 的 单词 可 知 这 是 一 篇 有 于 美国 政府 与 巴拿马 独裁 者 Manuel Noriega 的 文章 ， 因 此 算法 将 





示例 : 博大 的 图 书馆 馆藏 























在 验证 统计 方法 时 ， 在 “答案 正确 ”的 情况 下 进行 尝试 是 非常 有 用 的 。 例 如 ， 可 以 收集 一 组 与 四 个 单独 主题 相关 的 文档 ， 然 后 进行 主题 建 模 ， 看 看 算法 能 否 正确 区 分 这 四 组 文档 。 这 有 助 于 测试 该 算法 
是 否 有 用 ， 并 了 解 算法 为 什么 会 出 错 。 这 里 尝试 对 一 些 经 典 文献 进行 分 析 。 






































假设 有 如 下 四 本 书 : 





* Charles Dickens 的 Great Expectations 
- H.G.Wells 的 The War of the Worlds 
* Jules Verne] Twenty Thousand Leagues Under the Sea 


* Jane Austenfi Pride and Prejudice 



































将 这 些 书 分 成 单独 的 章节 ， 并 将 这 些 章节 混在 一 起 。 如 何 将 这 些 无 序 的 章节 恢复 到 原来 的 书 中 呢 ? 这 是 一 个 具有 挑战 性 的 问题 ， 因 为 每 个 章节 都 没有 标签 : 不 知道 对 这 些 单词 分 组 。 因 此 ， 使 用 主题 建 
模 方法 来 研究 如 何 将 章节 聚集 到 不 同 的 主题 中 ， 使 每 个 主题 能 大 概 表示 一 本 书 。 























使 用 第 3 章 引入 的 gutenbergr 包 来 得 到 这 四 本 书 的 文本 。 








titles «- c("Twenty Thousand Leagues under the Sea", "The War of the Worlds", 
"Pride and Prejudice", "Great Expectations") 


library (gutenbergr) 


books <- gutenberg works(title $in$ titles) %>% 
gutenberg download(meta fields - "title") 


















































在 预 处 理 时 ， 需 将 文本 分 为 几 个 章节 ， 使 用 tidytext 的 unnest_tokens () 将 章节 拆 分 成 单词 ， 然 后 使 用 stop_words 删 除 停 用 词 。 把 每 个 章节 都 视 为 一 个 单独 的 “文档 ”， 每 个 章节 都 有 一 个 名 称 ( 比 
如 “Great Expectations 1" 或 “Pride and Prejudice 11" ) 。 (在 其 他 应 用 中 ， 每 个 文档 可 能 是 一 份 报纸 或 一 篇 博客 文章 ) 。 








library (stringr) 


# divide into documents, each representing one chapter 
reg <- regex("^chapter ", ignore case = TRUE) 
by chapter <- books %>% Bi 
group by(title) %>% 
mutate (chapter = cumsum(str detect(text, reg))) %>% 
ungroup() %>% 
filter (chapter > 0) %>% 
unite (document, title, chapter) 


# split into words 
by chapter word <- by chapter %>% 
unnest tokens (word, text) 


# find document-word counts 

word counts <- by chapter word %>% 
anti join(stop words) $»$ 
count (document, word, sort = TRUE) $»$ 
ungroup () 


word_counts 


## # A tibble: 104,721 x 3 


HH document word n 
HW Xchr» «chr» «int» 
## 1 Great Expectations_57 joe 88 
#2 Great Expectations 7 joe 70 
H3 Great Expectations 17  biddy 63 
## 4 Great Expectations 27 joe 58 
H5 Great Expectations 38 estella 58 
## 6 Great Expectations 2 joe 56 
## 7 Great Expectations 23 pocket 23 
## 8 Great Expectations_15 joe 50 
dH Great Expectations 18 joe 50 


## 10 The War of the Worlds 16 brother 50 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 104,711 more rows 


章节 的 LDA 














现在 ， 数 据 框 word_counts 具 有 整洁 的 形式 ， 即 每 行 代表 一 个 文档 的 一 个 词 项 ， 但 是 topicmodels 包 要 求 输入 的 数据 格式 为 DocumentTermMatrix， 就 像 第 5 章 “ 将 整洁 文本 数据 转换 为 矩阵 ”一 节 中 
所 述 的 那样 ， 因 此 ， 需 要 使 用 tidytext 的 cast_dtm () 函数 来 将 每 行 一 个 词 条 的 表 转 换 成 DocumentTermMatrix 格 式 。 









































chapters dtm <- word counts $»$ 
cast dtm(document, word, n) 


chapters dtm 


## ««DocumentTermMatrix (documents: 193, terms: 18215)»» 
## Non-/sparse entries: 104721/3410774 

## Sparsity : 97% 

## Maximal term length: 19 

## Weighting : term frequency (tf) 




















然后 使 用 LIDA () 函数 来 创建 有 4 个 主题 的 模型 。 这 是 因为 这 里 有 4 本 书 ， 所 以 需要 查找 4 个 主题 ; 在 其 他 问题 中 ， 可 能 需要 尝试 不 同 的 k 值 。 























chapters lda «- LDA(chapters dtm, k - 4, control - list(seed - 1234)) 
chapters lda 


1H A LDA VEM topic model with 4 topics. 











就 像 美 联 社 的 数据 集 一 样 ， 可 以 查看 每 个 主题 的 单词 概率 。 











chapter topics <- tidy(chapters lda, matrix = "beta") 
chapter topics 


## # A tibble: 72,860 x 3 


H topic term beta 
Hn «int» «chr» «dbl» 
## 1 T joe 5.830326e-17 
H2 2 joe 3.194447e-57 
H3 3 joe 4.162676e-24 
## 4 4 joe 1.445030e-02 
## 5 1  biddy 7.846976e-27 
H6 2  biddy 4.672244e-69 
HT 3  biddy 2.259711e-46 
H8 4  biddy 4.767972e-03 
## 9 1 estella 3.827272e-06 
## 10 2 estella 5.316964e-65 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 72,850 more rows 








注意 ， 这 里 已 经 将 模型 转换 为 一 个 
45%. 








EF 题 中 每 个 词 项 为 一 行 的 格式 。 对 于 每 个 组 合 ， 模 型 计算 被 























生成 的 词 项 的 概率 。 例 如 ， 单 词 “joe” 从 主题 1、2 或 3 生成 的 概率 几乎 为 零 ， 但 由 











可 以 使 用 dplyr 包 的 top_n () 函数 来 查找 每 个 主题 中 的 前 五 个 单词 。 











top terms <- chapter topics $»$ 
group by(topic) %>% 
top n(5, beta) $»$ 
ungroup() $»$ 
arrange (topic, -beta) 


top terms 

## # A tibble: 20 x 3 

HE topic term beta 
Hd «int» «chr» «dbl» 
## 1 1 elizabeth 0.014107538 
## 2 1 darcy 0.008814258 
H3 1 miss 0.008706741 
## 4 1 bennet 0.006947431 
H5 t jane 0.006497512 
## 6 2 captain 0.015507696 
HT 2 nautilus 0.013050048 
H8 2 sea 0.008850073 
## 9 2 nemo 0.008708397 
## 10 2 ned 0.008030799 
## 11 3 people 0.006797400 
HE 12 3 martians 0.006512569 
HE 13 3 time 0.005347115 
HE 14 3 black 0.005278302 
HE 15 3 night 0.004483143 
HE 16 4 joe 0.014450300 
HET 4 time 0.006847574 
## 18 4 pip 0.006817363 
## 19 4 looked 0.006365257 
## 20 4 miss 0.006228387 














可 使 用 ggplot2 包 来 可 视 化 这 个 基于 整洁 格式 的 输出 〈 如 图 6-4 所 示 ) 。 


























library (ggplot2) 


top terms %>% 
mutate (term = reorder (term, beta)) %>% 
ggplot (aes (term, beta, fill = factor (topic))) + 
geom col(show.legend = FALSE) + 
facet wrap(~ topic, scales = "free") + 
coord flip() 
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图 6-4: 每 个 主题 最 常见 的 单词 
这 些 主题 与 这 四 本 书 有 很 明显 的 联系 ! SE, "captain “nautilus” "sea" 和 "nemo" 属于 Twenty Thousand Leagues Under the Sea, 而 "jane" 
and Prejudice。“pip” 和 “joe” 来 自 Great Expectations, "martians" “black” 和 “night” 来 自 The War of the Worlds。 由 于 LDA 是 一 种 “模糊 聚 类 ”方法 ， 因 此 有 的 单词 可 能 


如 ， 





“miss” 属 于 主题 1 和 主题 4，“time” 属 于 主题 3 和 主题 4。 


对 每 个 文档 进行 分 类 


在 分 析 中 ， 每 个 文档 都 代表 一 个 章节 。 





4 





“darcy” 和 “elizabeth” 则 属于 Pride 





属于 多 个 主题 , 比 


因此 ， 可 能 想 知道 主题 与 每 个 文档 之 间 的 关系 。 可 以 把 章节 内 容 归 到 正确 的 书 中 吗 ? 这 点 可 以 通过 查看 每 个 文档 的 概率 (“gamma”) 来 确定 。 





chapters gamma «- tidy(chapters lda, matrix = "gamma") 
chapters gamma 

## # A tibble: 772 x 3 

dH document topic gamma 

HW «chr» «int» «dbl» 

## 1 Great Expectations_57 1 1.351886e-05 
LL Great Expectations 7 1 1.470726e-05 

## 3 Great Expectations 17 1 2.117127e-05 

## 4 Great Expectations 27 1 1.919746e-05 
H5 Great Expectations 38 1 3.544403e-01 
H6 Great Expectations 2 1 1.723723e-05 
H7 Great Expectations 23 1 5.507241e-01 

## 8 Great Expectations 15 1 1.682503e-02 
H9 Great Expectations 18 1 1.272044e-05 

## 10 The War of the Worlds 16 1 1.084337e-05 

## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 762 more rows 





这 些 值 都 是 不 同文 档 在 不 同 主题 下 对 单词 的 估计 比例 。 例 如 ， 该 模型 估计 在 Great Expectations_57 文 档 中 的 单词 只 有 0.00135% 的 概率 来 自主 题 1 (Pride and Prejudice) . 


现在 有 了 这 些 主题 概率 ， 可 以 看 到 使 用 无 监督 学 习 





区 分 这 四 本 书 的 效果 究竟 如 何 。 即 ， 期 望 一 本 书 的 大 部 分 (或 全 部 ) 章节 都 能 够 被 认为 是 由 相应 主题 生成 的 。 


首先 ， 将 文档 名 称 重新 分 为 标题 和 章节 ， 之 后 可 视 化 每 个 文档 对 应 每 个 主题 的 概率 (如 图 6-5 所 示 ) 。 








chapters gamma <- chapters gamma %>% 


separate (document, c("title", "chapter"), sep = " ", convert = TRUE) 

chapters gamma 

## # A tibble: 772 x 4 

dH title chapter topic gamma 
Hx «chr» «int» «int» <dbl> 
Hl Great Expectations 57 1 1.351886e-05 
H2 Great Expectations 7 1 1.470726e-05 
H3 Great Expectations 17 1 2.117127e-05 
## 4 Great Expectations 27 1 1.919746e-05 
H5 Great Expectations 38 1 3.544403e-01 
## 6 Great Expectations 2 1 1.723723e-05 
HET Great Expectations 23 1 5.507241e-01 
H8 Great Expectations 15 1 1.682503e-02 
## 9 Great Expectations 18 1 1.272044e-05 
## 10 The War of the Worlds 16 1 1.084337e-05 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 762 more rows 


# reorder titles in order of topic 1, topic 2, etc. before plotting 


chapters gamma $»$ 


mutate (title = 


reorder (title, gamma * topic)) %>% 
ggplot (aes (factor (topic), gamma)) + 


geom boxplot() + 
facet wrap(- title) 
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图 6-5: 每 本 书 中 每 章 的 概率 y 


可 以 看 到 ， 几 乎 Pride and Prejudice, The War of the Worlds, Twenty Thousand Leagues Under the Sea 的 所 有 的 章节 都 被 唯一 地 标识 为 一 个 单一 的 主题 。 


但 某 些 看 起 来 





属于 Great Expectations 的 章节 (应 该 是 主题 4) 却 被 识别 为 与 其 他 主题 有 联系 。 那 么 ， 是 否 存在 与 章节 最 相关 的 主题 其 实 属于 另 一 本 书 的 情况 呢 ? 首先 ， 使 用 top_n () 函数 找到 与 每 章 
最 相关 的 主题 ， 这 实际 上 是 章节 “分 类 ”问题 。 








chapter classifications <- chapters gamma %>% 
group by(title, chapter) %>% 
top n(1, gamma) $»$ 


ungroup () 


chapter classifications 


## # A tibble: 193 x 4 
title chapter topic 
<int> <int> 


Hn 

HW «chr» 
## 1 Great Expectations 
## 2 Pride and Prejudice 
## 3 Pride and Prejudice 
## 4 Pride and Prejudice 
## 5 Pride and Prejudice 
## 6 Pride and Prejudice 
## 7 Pride and Prejudice 
## 8 Pride and Prejudice 
## 9 Pride and Prejudice 
## 10 Pride and Prejudice 


## # http://www. 


23 
43 
18 
45 
16 
29 
10 

8 
56 
47 


PppPpPpPPpPPPPP 
oooooooooo 


garma 
«dbl» 


.5507241 
-9999610 
. 9999654 
. 9999038 
. 9999466 
. 9999300 
. 9999203 
-3999134 
-9999337 
-9999506 


hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 183 more rows 





然后 ， 可 以 将 每 本 书 与 “consensus” 主题 (其 章节 中 最 


常见 的 主题 ) 进行 比较 ， 看 看 哪些 分 类 会 出 错 。 





book topics <- chapter classifications $»$ 


count (title, topic) $»$ 

group by(title) %>% 

top n(i, n) %>% 

ungroup() %>% 

transmute (consensus = title, topic) 
chapter classifications %>% 

inner join(book topics, by = "topic") %>% 

filter(title !- consensus) 


## # A tibble: 2 x 5 


Hr title chapter topic gamma consensus 
HE «chr» «int» «int» «dbl» «chr» 
## 1 Great Expectations 23 1 0.5507241 Pride and Prejudice 
## 2 Great Expectations 54 3 0.4803234 The War of the Worlds 





可 以 看 到 ， 只 有 Great Expectations 的 两 个 章节 被 错误 分 类 ，LDA 将 一 个 章节 描述 为 Pride and Prejudice 主 题 (主题 1) ， 将 一 个 章节 描述 为 The War of the Worlds 主 题 (主题 3) 。 但 是 ， 这 个 结果 





对 于 无 监督 聚 类 而 言 已 经 很 不 错 了 ! 


用 augment () 函数 进行 逐 字 分 配 


LDA 算 法 的 一 个 步骤 是 将 每 个 文档 中 的 每 个 单词 分 配给 一 个 主题 。 一 般 来 说 ， 分 配给 该 主题 的 单词 越 多 ， 该 文档 与 主题 的 分 类 权重 (gamma) 就 越 大 。 








我 们 需要 取 原 始 的 文档 -单词 对 (document-word pairs) ， 然 后 找 出 每 个 文档 中 哪些 单词 被 分 配 到 了 哪个 





题 。augment () 函数 可 以 完成 这 项 工作 ， 该 函数 在 broom 包 中 ， 其 输出 为 整洁 模型 。 当 




















tidy () 函数 获取 模型 的 统计 元 素 时 ，augment () 使 用 一 个 模型 将 信息 添加 到 原始 数据 的 每 个 样本 中 。 











assignments <- augment(chapters lda, data = chapters dtm) 
assignments 


## # A tibble: 104,721 x 4 


He document term count .topic 
Hr «chr» «chr» «dbl» <dbl> 
## 1 Great Expectations 57 joe 88 4 
## 2 Great Expectations 7 joe 70 4 
## 3 Great Expectations 17 joe 5 4 
## 4 Great Expectations 27 joe 58 4 
## 5 Great Expectations 2 joe 56 4 
## 6 Great Expectations 23 joe 1 4 
## 7 Great Expectations 15 joe 50 4 
## 8 Great Expectations 18 joe 50 4 
## 9 Great Expectations 9 joe 44 4 
## 10 Great Expectations 13 joe 40 4 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 104,711 more rows 


该 表 给 出 了 整洁 数据 框 book-term 的 计数 结果 ， 但 增加 了 一 个 额外 的 列 : .topic， 该 列表 示 每 个 词 被 分 配 到 哪个 文档 主题 中 。 (augment 增 加 的 额外 的 列 总 是 从 .开始 ， 以 防止 覆盖 现 有 的 列 。) 可 以 将 





此 assignments 表 与 共同 的 书 名 相 结合 ， 以 找 出 哪些 单词 被 错误 分 类 。 





assignments <- assignments %>% 


separate (document, c("title", "chapter"), sep = " ", convert = TRUE) %>% 
inner join(book topics, by - c(".topic" - "topic")) 
assignments 


## # A tibble: 104,721 x 6 


HW title chapter term count .topic consensus 
HW «chr» «int» «chr» «dbl» «dbl» «chr» 
## 1 Great Expectations 57 joe 88 4 Great Expectations 
## 2 Great Expectations 7 joe 70 4 Great Expectations 
## 3 Great Expectations 17 joe 5 4 Great Expectations 
## 4 Great Expectations 27 joe 58 4 Great Expectations 
## 5 Great Expectations 2 joe 56 4 Great Expectations 
## 6 Great Expectations 23 joe 1 4 Great Expectations 
## 7 Great Expectations 15 joe 50 4 Great Expectations 
## 8 Great Expectations 18 joe 50 4 Great Expectations 
## 9 Great Expectations 9 joe 44 4 Great Expectations 
## 10 Great Expectations 13 joe 40 4 Great Expectations 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 104,711 more rows 

















真正 的 书 (标题 ) 和 所 分 配 的 书 相 结合 的 组 对 于 进一步 研究 很 有 用 。 例 如， 可 以 使 用 dplyr 包 的 count () 和 ggplot2 包 的 geom_tile 来 可 视 化 confusion matrix， 从 中 可 看 出 对 一 本 书 的 单词 有 多 少 是 分 




















配给 另 一 本 书 的 (如 图 6-6 所 示 ) 。 














assignments %>% 
count (title, consensus, wt = count) %>% 
group by(title) $»$ 
mutate (percent = n / sum(n)) %>% 
ggplot(aes(consensus, title, fill = percent)) 十 
geom tile() + 
scale fill gradient2 (high = "red", label = percent format()) + 
theme minimal() * 2s 
theme(axis.text.x = element text(angle = 90, hjust = 1), 
panel.grid = element blank()) 十 
labs (x ook words were assigned to", 
ook words came from", 
fill = "$ of assignments") 
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图 6-6: Confusion matrix 展 示 LDA 方 法 为 每 本 书 中 单词 所 分 配 位 置 。 该 表 的 每 一 行 代表 每 个 单词 实际 来 自 哪 本 书 ， 每 列表 示 分 配给 了 哪 本 书 


可 以 看 到 ， 几 乎 所 有 来 自 Pride and Prejudice, Twenty Thousand Leagues Under the Sea 和 The War of the Worlds 的 词 都 被 正确 地 进行 了 分 类 ， 而 Great Expectations 有 一 定数 量 的 单词 被 误 分 
类 (正如 前 面 看 到 的 那样 ， 有 两 个 章节 被 误 分 类 ) 。 


最 常见 的 错误 是 什么 ? 





wrong words <- assignments %>% 
filter(title != consensus) 


wrong words 


## # A tibble: 4,535 x 6 


H title chapter term count .topic 
Hu «chr» «int» <chr> «dbl» «dbl» 
HI Great Expectations 38 brother 2 d 
H2 Great Expectations 22 brother 4 1 
H3 Great Expectations 23 miss 2 1 
## 4 Great Expectations 22 miss 23 $ 
## 5 Twenty Thousand Leagues under the Sea 8 miss 1 1 
## 6 Great Expectations 31 miss 1 1 
## 7 Great Expectations 5 sergeant 37 2 
H8 Great Expectations 46 captain T 2 
Ho Great Expectations 32 captain 1 2 
## 10 The War of the Worlds 17 captain 5 2 
dH consensus 
dH «chr» 
## 1 Pride and Prejudice 
H2 Pride and Prejudice 
H3 Pride and Prejudice 
## 4 Pride and Prejudice 
## 5 Pride and Prejudice 
H6 Pride and Prejudice 
## 7 Pride and Prejudice 


## 8 Twenty Thousand Leagues under the Sea 
## 9 Twenty Thousand Leagues under the Sea 
## 10 Twenty Thousand Leagues under the Sea 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 4,525 more rows 


wrong words $»$ 
count (title, consensus, term, wt = count) $5$ 
ungroup() %>% 
arrange (desc (n) ) 


## # A tibble: 3,500 JX 4 


HW title consensus term n 
HW «chr» «chr» «chr» «dbl» 
## 1 Great Expectations Pride and Prejudice love 44 
## 2 Great Expectations Pride and Prejudice sergeant 37 
## 3 Great Expectations Pride and Prejudice lady 32 
## 4 Great Expectations Pride and Prejudice miss 26 
## 5 Great Expectations The War of the Worlds boat 25 
## 6 Great Expectations Pride and Prejudice father 19 
## 7 Great Expectations The War of the Worlds water 19 
## 8 Great Expectations Pride and Prejudice baby 18 
## 9 Great Expectations Pride and Prejudice flopson 18 


## 10 Great Expectations Pride and Prejudice family 16 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 3,490 more rows 





可 以 看 到 一 些 词 即使 在 Great Expectations 中 出 现 过 ， 也 经 常 被 分 配 到 Pride and Prejudice 或 The War of the Worlds 集 合 中 ， 如 “love” 和 “lady”， 这 是 因为 这 些 词 在 Pride and Prejudice 中 更 常 





见 (这 点 可 以 通过 检查 单词 数目 来 确认 ) 。 





另外 有 一 些 被 误 分 类 的 单词 从 未 出 现在 被 误 分 配 的 书 中 。 例 如 ，“flopson” 只 出 现在 Great Expectations 中 ， 但 该 单词 被 分 配 到 Pride and Prejudice 中 。 














word counts %>% 
filter (word == "flopson") 


## # A tibble: 3 x 3 


H document word n 
HW Xchr» «chr» «int» 
## 1 Great Expectations 22 flopson 10 
## 2 Great Expectations 23 flopson 7 
## 3 Great Expectations 33 flopson 1 





LDA 算 法 是 随机 的 ， 单 词 可 能 会 碰巧 分 配 到 多 本 书 的 主题 上 。 


LDA 方 法 的 替代 实现 


topicmodels 包 中 的 LDA () 函数 只 是 LDA 算 法 的 一 种 实现 。mallet (Mimno, 2013) 是 基于 MALLETII] 框 架 的 一 个 文本 分 类 工具 包 ， 并 且 tidytext 包 也 针对 该 模型 的 输出 提供 了 整洁 方法 。 














mallet 包 对 输入 格式 的 要 求 有 所 不 同 ， 例 如 ， 该 包 需要 输入 非 词 条 化 的 文档 ， 其 本 身 可 以 进行 词 条 化 处 理 ， 并 且 需 要 单独 的 停 用 词 文 件 。 这 意味 着 在 使 用 LDA 之 前 ， 必 须 将 每 个 文档 的 文本 处 理 成 一 个 





























FFR, 








library (mallet) 


# create a vector with one string per chapter 
collapsed <- by chapter word %>% 
anti join(stop words, by = "word") 
mutate (word = str replace(word, "'" 
group by(document) %>% 
summarize (text = paste (word, collapse = " ")) 





# create an empty file of "stop words" 
file.create(empty file <- tempfile()) 
docs <- mallet.import(collapsed$document, collapsed$text, empty file) 


mallet model <- MalletLDA(num.topics = 4) 
mallet model$loadDocuments (docs) 
mallet model$train (100) 














但 一 旦 创建 了 模型 ， 就 可 以 用 几乎 相同 的 方式 使 用 本 章 所 介绍 的 tidy () 和 augment () 函数 ， 包 括 提取 每 个 主题 内 单词 的 概率 或 每 个 文档 中 主题 的 概率 。 

















# word-topic pairs 
tidy (mallet model) 


# document-topic pairs 
tidy(mallet model, matrix - "gamma") 


# column needs to be named "term" for "augment" 
term counts «- rename(word counts, term = word) 
augment (mallet model, term counts) 

















可 利用 ggplot2 来 研究 和 可 视 化 模型 ， 具 体 的 方法 与 处 理 LDA 输 出 方式 一 样 。 











[1] MALLET 是 一 个 基于 Java 的 统计 自然 语言 处 理 框架 ， 详 细 内 容 请 参见 : http://mallet.cs.umass.edu/。 


总 结 




















本 章 介绍 了 主题 建 模 方法 ， 该 方法 用 来 对 一 组 文档 的 单词 集 进行 聚 类 ， 并 介绍 在 tidy () 函数 中 如 何 使 用 dplyr 包 和 ggplot2 包 来 研究 和 理解 这 些 模 型 。 这 是 使 用 整洁 方法 进行 建 模 的 优点 之 一 ， 即 整洁 
功能 解决 了 不 同 输出 格式 带 来 的 挑战 ， 并 且 可 以 使 用 一 套 标准 的 工具 来 研究 模型 的 结果 。 特 别 地 ， 主 题 建 模 能 够 区 分 四 本 书 的 章节 ， 并 通过 查看 分 配 错误 的 单词 和 章节 来 研究 模型 的 局 限 性 。 
















































































第 7 章 案例 研究 : Twitter 归档 文件 比较 


在 文本 分 析 中 ， 一 种 备 受 关注 的 文本 类 型 是 通过 Twitter 实现 的 在 线 共享 文本 。 事 实 上 ， 本 书 使 用 的 一 些 情感 词典 (被 普遍 使 用 ) 是 为 使 用 和 验证 tweet 而 设计 的 。 本 书 的 作者 也 使 
的 忠实 用 户 ， 因 此 ， 在 本 案例 研究 中 ， 会 对 Julia 和 David 在 Twitter 上 的 所 有 归档 文件 进行 比较 。 




















获取 tweet 数 据 和 分 布 





























Twitter， 是 Twitter 


人 们 可 按 Twitter 网 站 上 给 出 的 指示 来 下 载 自己 的 Twitter 归档 文件 。 下 载 并 打开 Julia 和 David 的 Twitter 档案 。 使 用 lubridate 包 将 字符 串 时 间 戳 转换 为 日 期 时 间 对 象 ， 然 后 粗略 查看 一 下 tweet 的 形式 (如 























图 7-1 所 示 ) 。 








library (lubridate) 
library (ggplot2) 

library (dplyr) 
library (readr) 


tweets julia <- read csv("data/tweets julia.csv") 
tweets dave <- read csv("data/tweets dave.csv") 
tweets <- bind rows(tweets julia %>% 
mutate (perso! 
tweets_dave %>% 
mutate (person = "David")) %>% 
mutate (timestamp = ymd_hms (timestamp) ) 





"Julia"), 


ggplot(tweets, aes(x = timestamp, fill = person)) + 
geom histogram(position = "identity", bins = 20, show.legend = FALSE) + 


facet wrap (-person, ncol = 1) 





David 和 Julia 最 近 发 送 Twitter 的 频 度 大 致 相同 ， 并 且 开 通 Twitter 的 时 间 大 约 相隔 一 年 ， 但 是 大 约 在 五 年 前 ，David 发 送 tweet 比 较 少 ， 而 Julia 却 很 活跃 。 总 之 ，Julia 发 送 tweet 的 数量 是 David 的 4 倍 。 














图 7-1: 个 人 账户 的 所 有 tweet 


词 频 


使 用 unnest tokens () 对 tweet 中 所 有 的 单词 进行 整理 ， 并 删 掉 常 用 的 英文 停 用 词 。 人 们 在 Twitter 上 使 用 文本 会 有 一 些 约定 ， 因 此 需要 比 普通 文本 (比如 Gutenberg 项 目 中 的 叙述 性 文本 ) 做 更 多 的 
工作 。 





首先 ， 删 掉 该 数据 集中 转发 的 tweet， 得 到 用 户 自己 撰写 的 tweet。 接 下 来 使 用 mutate () 删除 链接 并 清除 一 些 不 想 要 的 字符 ， 例 如 & 符 号 。 





























内在 调用 unnest_tokens O 时 使 用 正则 表达 式 ， 而 不 是 仅仅 查找 单个 字 (单词 ) 。 正 则 表达 式 对 于 处 理 Twitter 文 本 非常 有 用 ， 因 为 可 以 保留 井 号 标签 和 带 有 @ 符 号 的 用 户 名 。 


由 于 在 文本 中 保留 了 一 些 符号 类 型 ， 所 以 不 能 使 用 简单 的 anti join () 来 删除 停 用 词 ， 而 是 在 filter () 函数 中 使 用 stringr 包 中 的 str_detect () 函数 ， 如 下 代码 所 示 。 





library (tidytext) 
library (stringr) 


replace regl <- "https://t.co/[A-Za-zWd]*|" 
replace reg2 <- "http://[A-Za-zWd]*|&amp; | &1t; | &gt; |RT| https" 
replace reg <- paste0 (replace regl, replace reg2) 
unnest reg <- "([^A-Za-z \\d#@']|'(?![A-2a-z \\d#@]))" 
tidy tweets <- tweets %>% 
filter (!str_detect (text, "^RT")) %>% 
mutate (text = str replace all(text, replace reg, "")) %>% 
unnest tokens (word, text, token = "regex", pattern = unnest reg) %>% 
filter(!word $in$ stop words$word, 
str detect (word, "[a-z]")) 





为 Julia 有 更 多 的 tweet) , 





现在 可 以 计算 每 个 人 使 用 单词 的 频率 。 首 先 ， 对 用 户 进行 分 组 ， 并 统计 每 个 人 使 用 单词 的 次 数 。 然 后 使 用 left_join () 添加 一 列 ， 用 于 表示 单词 总 数 (Julia 比 David 更 高 ， 因 
最 后 ， 计 算 每 个 人 的 单词 频率 。 





frequency <- tidy tweets $»$ 
group by(person) $»$ 
count (word, sort = TRUE) %>% 
left join(tidy tweets %>% 
e group by(person) %>% 
summarise (total = n())) %>% 
mutate (freq = n/total) 


frequency 


## Source: local data frame [20,736 x 5] 
## Groups: person [2] 


HW 

HE person word n total freq 
HE «chr» «chr» «int» «int» «dol» 
## 1 Julia time 584 74572 0.007831358 
## 2 Julia Gselkiel970 570 74572 0.007643620 
## 3 Julia @skedman 531 74572 0.007120635 
## 4 Julia day 467 74572 0.006262404 
## 5 Julia baby 408 74572 0.005471222 
## 6 David @hadleywickham 315 20161 0.015624225 
## 7 Julia love 304 74572 0.004076597 
## 8 Julia @haleynburke 299 74572 0.004009548 
## 9 Julia house 289 74572 0.003875449 
## 10 Julia morning 278 74572 0.003727941 


## # http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17479/0EBPS/Text/... with 20,726 more rows 
































这 是 一 个 很 好 、 很 整洁 的 数据 框 ， 但 是 ， 我 们 想 在 图 的 x 轴 和 y 轴 上 绘制 这 些 频率 ， 因 此 ， 需 要 使 用 tidyr 包 的 spread () 函数 来 得 到 不 同形 状 的 数据 框 。 























library (tidyr) 


frequency <- frequency %>% 
select (person, word, freq) $5$ 
spread(person, freq) %>% 
arrange (Julia, David) 


frequency 

## # A tibble: 17,640 x 3 

H word David Julia 
Hn «chr» «dbl» «dbl» 
## 1 's 4.960071e-05 1.340986e-05 
## 2 Gaccidental art 4.960071e-05 1.340986e-05 
H3 Galice data 4.960071e-05 1.340986e-05 
## 4 @alistaire 4.960071e-05 1.340986e-05 
H5 Gcorynissen 4.960071e-05 1.340986e-05 
H6 Qjennybryan's 4.960071e-05 1.340986e-05 
HET Qjsvine 4.960071e-05 1.340986e-05 
H8 QGlizasperling 4.960071e-05 1.340986e-05 
## 9 Gognyanova 4.960071e-05 1.340986e-05 
## 10 Grbloggers 4.960071e-05 1.340986e-05 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 17,630 more rows 

















现在 已 经 为 绘图 做 好 了 准备 。 为 了 尽量 不 将 低频 率 的 单词 展示 在 图 中 ， 可 使 用 geom_jitter () 函数 ， 并 设置 check_overlap=TRUE， 这 样 文本 标签 就 不 会 被 全 部 打印 出 来 (只 有 部 分 文本 标签 会 被 打 
印 ， 如 图 7-2 所 示 ) 。 





















































library (scales) 


ggplot(frequency, aes (Julia, David)) + 
geom jitter (alpha = 0.1, size = 2.5, width 
geom text (aes (label = word), check_overlap 


0.25, height = 0.25 
TRUE, vjust = 1.5) 


Scale x log10 (labels = percent format()) + 
scale y loglO(labels = percent format()) + 
geom abline(color - "red") 
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对 于 图 7-2 中 直线 附近 的 单词 ，David 和 Julia 使 用 的 频率 几乎 相同 ， 而 对 于 远离 直线 的 单词 ， 表 示 一 个 人 比 另 外 一 个 人 使 用 得 更 多 一 些 。 图 中 
tweet 中 使 用 过 一 次 。 








EF 题 标签 以 及 用 户 名 都 至 少 在 David 和 Julia 的 













































































显然 David 和 Julia 在 过 去 几 年 中 使 用 Twitter 账号 的 情况 有 所 不 同 。 自 从 David 的 Twitter 账号 变 得 活跃 后 ， 几 乎 全 部 用 于 专业 目的 ， 而 自 2015 年 年 底 开 始 ，Julia 使 用 Twitter 账号 则 完全 用 于 个 人 目的 ， 
而 且 比 David 更 加 活跃 。 在 图 7-2 中 可 以 明显 感受 到 这 些 差 异 ， 并 且 在 本 章 接 下 来 的 研究 中 也 会 使 这 些 差异 变 得 明显 。 
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图 7-2: 对 Julia 和 David 所 使 用 单词 的 频率 进行 比较 
单词 使 用 情况 的 比较 


刚刚 展示 的 图 中 给 














中 给 出 了 Julia 和 David 在 个 人 使 用 Twitter 整个 历史 过 程 中 的 原始 词 频 ， 现 在 ， 通 过 对 数 概率 比 (log odds radio) 指标 来 看 看 单词 来 自 各 个 账户 的 可 能 性 。 首 先 ， 推 迟 一 下 对 2016 生 
David 和 Julia 发 送 tweet 的 分 析 进 程 ，David 在 2016 年 一 直 处 于 活跃 状态 ， 而 这 个 时 候 Julia 也 开始 了 数据 科学 的 职业 生涯 


























tidy tweets <- tidy tweets %>% 
filter (timestamp >= as.Date("2016-01-01"), 
timestamp < as .Date ("2017-01-01") 








接 下 来 使 用 str_detect () 函数 从 word 列 中 删除 Twitter 

















户 名 ， 否 则 分 析 结 果 可 能 会 被 仅 由 Julia 或 David 知 道 而 其 他 人 不 知道 的 人 影响 。 删 除 后 ,i 
次 数 超过 10 次 的 单词 。 在 进行 spread () 操作 之 后 ， 可 以 使 用 以 下 方法 计算 每 个 单词 的 对 数 概率 比 


计算 Julia 和 David 使 用 单词 的 次 数 ， 并 且 只 保留 使 用 


(n*l) 
(total-- 1 ) David 

(n*l) 
(total-1) Julia 





对 数 概率 比 = In 












































其 中 n 表 示 每 个 人 对 每 个 单词 的 使 用 次 数 ，total 表 示 每 个 人 使 用 单词 的 总 数 。 





word ratios <- tidy tweets %>% 
filter(!str detect(word, "^Q")) %>% 
count (word, person) $»$ 
filter(sum(n) >= 10) 25$ 
ungroup() $»$ 
spread (person, n, fill = 0) $5$ 
mutate if(is.numeric, funs((. + 1 
mutate(logratio = log(David / Jul 
arrange (desc (logratio)) 














在 2016 年 期 间 ， 哪 些 来 自 David 或 Julia 账 户 的 单词 可 能 相同 ? 














word ratios %>% 
arrange (abs (logratio)) 


## # A tibble: 377 x 4 


Hr word David Julia logratio 
HW «chr» «dbl» «dbl» «dbl» 
HI map 0.002321655 0.002314815 0.002950476 
H2 email 0.002110595 0.002083333 0.013000812 
H3 file 0.002110595 0.002083333 0.013000812 
## 4 names 0.003799071 0.003703704 0.025423332 
## 5 account 0.001688476 0.001620370 0.041171689 
## 6 api 0.001688476 0.001620370 0.041171689 
## 7 function 0.003376952 0.003240741 0.041171689 
## 8 population 0.001688476 0.001620370 0.041171689 
## 9 sad 0.001688476 0.001620370 0.041171689 
## 10 words 0.003376952 0.003240741 0.041171689 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 367 more rows 











户 可 能 也 会 发 送 地 图 、 电 子 邮 件 、API 和 函数 。 











[R] 











哪些 单词 最 有 可 能 来 自 Julia 的 账号 或 David 的 账号 ”来 看 看 每 个 账户 前 15 个 最 有 特色 的 单词 ， 如 图 7-3 所 示 。 











word ratios %>% 
group by(logratio < 0) $»$ 
top n(15, abs(logratio)) %>% 
ungroup() %>% 
mutate (word = reorder (word, logratio)) %>% 
ggplot (aes (word, logratio, fill = logratio < 0)) + 
geom col(show.legend = FALSE) + 
coord flip() + 
ylab ("log odds ratio (David/Julia)") + 
scale_fill_discrete (name = "", labels = c("David", "Julia")) 








#user2016 4 
#jsm2016 - 
android 4 
traffic - 
dev - 
#plotcon 4 
gene 4 
article 4 
stack - 
agree 3 
overflow 4 
matrix - 
approach 4 
scientists - 
log 
binomial 
girls 
children 
blah 
rating 
physics 
christmas 
census 
school 
home 
rob - 
husband 4 
slc 4 
gosh 4 
utah 4 
omg 4 
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对 数 概率 比 (David/Julia) 





图 7-3: 对 Tweet 账 户 单词 的 对 数 概率 比 进行 比较 





从 图 7-3 可 以 看 出 ，David 发 的 tweet 与 所 参加 的 具体 会 议 、 基 因 、 堆 栈 过 程 和 矩阵 有 关 ， 而 Julia 所 发 的 tweet 与 Utah、 物 理学 、 普 查 数据 、 圣 诞 节 和 家 人 有 关 。 








单词 使 用 情况 的 变化 


上 一 节 对 单词 的 整体 使 用 情况 进行 了 介绍 ， 现 在 来 回答 另外 一 个 问题 。Twitter 账 户 的 输入 中 哪些 单词 的 频率 变化 最 快 ? 也 就 是 说 ， 随 着 时 间 的 推移 ， 哪 些 单词 以 更 高 或 更 低 的 频率 出 现在 所 发 布 的 
tweet 中 ? 为 了 解决 这 个 问题 ， 需 在 数据 框 中 定义 一 个 新 的 时 间 变 量 ， 这 个 时 间 变 量 定义 了 每 个 tweet 被 发 布 的 时 间 。 可 以 使 用 来 自 Ilubridate 项 目的 floor_date () 函数 按 所 选择 的 时 间 单 位 完成 这 项 功能 。 
对 于 这 两 个 人 今年 1 个 月 的 tweet 似 乎 这 种 方法 能 得 到 不 错 的 效果 。 














在 定义 了 时 间 段 之 后 ， 计 算 每 个 时 间 段 中 每 个 人 使 用 单词 的 次 数 。 然 后 在 数据 框 中 添加 两 列 : 每 个 人 在 每 个 时 间 段 所 使 用 单词 的 总 数 ; 每 个 人 使 用 单词 的 总 次 数 。 然 后 使 用 filter () 函数 保留 至 少 使 用 
过 一 定 次 数 (此 处 可 以 设置 为 30 次 ) 的 单词 。 





words by time <- tidy tweets %>% 
filter(!str detect(word, "^8")) %>% 
mutate(time floor = floor date(timestamp, unit = "1 month")) %>% 
count(time floor, person, word) $»$ 
ungroup() %>% 
group by(person, time floor) %>% 
mutate(time total = sum(n)) %>% 
group by(word) 3>% 
mutate(word total = sum(n)) %>% 
ungroup() $»$ 
rename (count = n) $»$ 
filter (word total > 30) 


words_by_time 


## # A tibble: 970 x 6 
dH 


time floor person word count time total word total 
+ Xdttm» «chr» «chr» «int» <int> “<int> 
## 1 2016-01-01 David #rstats 2 307 324 
## 2 2016-01-01 David bad t 307 33 
## 3 2016-01-01 David bit 2 307 45 
## 4 2016-01-01 David blog 1 307 60 
## 5 2016-01-01 David broom 2 307 41 
## 6 2016-01-01 David call 2 307 31 


## 7 2016-01-01 David check 1 307 42 
## 8 2016-01-01 David code 3 307 49 
## 9 2016-01-01 David data 2 307 276 
## 10 2016-01-01 David day 2 307 65 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 960 more rows 














该 数据 框 中 的 每 一 行 对 应 于 一 个 人 在 给 定时 间 段 使 用 某 单词 的 信息 。count 列 给 出 了 某 用 户 在 该 时 间 段 中 使 用 某 个 单词 的 次 数 ，time _total 列 给 出 了 该 时 间 段 内 用 户 使 有 
出 了 该 用 户 全 年 使 用 该 单词 的 次 数 。 这 是 用 于 建 模 的 数据 集 。 


























单词 的 总 数 ， 而 word _total 列 给 







































































使 用 tidyr 包 的 nest () 函数 来 创建 包含 多 个 列 的 数据 框 ， 这 些 列 包含 每 个 单词 的 小 型 数据 框 ， 现 在 开始 创建 并 查看 得 到 的 结构 。 





nested data <- words by time %>% 
nest (-word, -person) 


nested data 

## # A tibble: 112 x 3 

HE person word data 
HW <chr> — «chr» «list» 
iH 1 David #rstats «tibble [12 x 4]» 
## 2 David bad <tibble [9 x 4]> 
H3 David bit «tibble [10 x 4]» 
## 4 David blog <tibble [12 x 4]> 
## 5 David broom <tibble [10 x 4]> 
## 6 David call <tibble [9 x 4]> 
HT David check «tibble [12 x 4]> 
H8 David code «tibble [10 x 4]» 
## 9 David data <tibble [12 x 4]> 
## 10 David day «tibble [8 x 4]> 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 102 more rows 

















该 数据 框 的 每 一 行 表示 每 个 人 与 单词 组 合 ，data 列 为 包含 表示 数据 框 的 列表 列 ， 并 且 人 与 单词 的 每 个 组 合 都 有 一 个 data 列 。 使 用 purrr 包 的 map () 函数 将 建 模 过 程 中 的 这 些微 型 数据 框 应 用 到 大 数据 
框 中 。 这 些 是 计数 数据 ， 所 以 使 用 glm () 函数 来 进行 建 模 ， 并 设置 family=“binomial”。 















































library (purrr) 
nested models <- nested data %>% 
mutate (models = map(data, ~ glm(cbind(count, time total) ~ time floor, ., 
family = "binomial"))) 


nested models 


## # A tibble: 112 x 4 


HE person word data models 
Hr «chr» «chr» «list» «list» 
## 1 David frstats «tibble [12 x 4]» «S3: glm» 
## 2 David bad «tibble [9 x 4]> «S3: glm» 
## 3 David bit «tibble [10 x 4]» «S3: glm> 
## 4 David blog «tibble [12 x 4]» «S3: glm» 
## 5 David broom «tibble [10 x 4]» «S3: glm> 
## 6 David call «tibble [9 x 4]» «S3: gim» 
## 7 David check «tibble [12 x 4]> «S3: glm» 
## 8 David code «tibble [10 x 4]» «S3: gim» 
## 9 David data «tibble [12 x 4]» «S3: gim» 
## 10 David day «tibble [8 x 4]> «S3: glm» 


## 4 http://www.hzcourse. coti resource /vesdbookopatha /openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 102 more rows 


对 于 这 个 建 模 过 程 ， 可 以 回答 这 样 的 问题 : “在 给 定时 间 段 中 是 否 提 及 给 定单 词 ?是 或 否 ” 不 同时 间 段 所 提 及 单词 数量 如 何 ?“ 














分 需要 注意 ， 在 建 模 结果 中 有 一 个 新 列 ， 这 是 一 个 包含 glm 对 象 的 一 组 列 。 接 下 来 使 用 broom 包 中 的 map () 函数 和 tidy O 函数 来 计算 每 个 模型 的 斜率 ， 并 找到 重要 的 斜率 。 因 此 ， 需 要 对 多 个 斜率 
行 比较 ， 但 由 于 一 些 斜率 在 统计 学 上 并 不 重要 ， 所 以 需要 调整 p.value 参 数 。 






































library (broom) 

slopes <- nested models %>% 
unnest (map (models, tidy)) %>% 
filter (term == "time floor") 
mutate (adjusted.p.value = p.adjust (p.value)) 








现在 来 查找 最 





的 斜率 ， 在 tweet 中 ， 哪 些 单词 在 频率 上 有 一 个 较 大 的 变化 ? 








top slopes <- slopes %>% 
filter(adjusted.p.value < 0.1) %>% 
select(-statistic, -p.value) 








top slopes 

iH # A tibble: 6 x 8 

## — person word term estimate std.error adjusted.p.value 
Hu «chr» «chr» «chr» «dbl» «dol» «dbl» 
## 1 David  ggplot2 time floor -8.262540e-08 1.969448e-08 2.996837e-03 
## 2 Julia #rstats time floor -4.496395e-08 1.119780e-08 6.467858e-03 
## 3 Julia post time floor -4.818545e-08 1.454440e-08 9.784245e-02 
## 4 Julia read time floor -9.327168e-08 2.542485e-08 2.634712e-02 
## 5 David stack time floor 8.041202e-08 2.193375e-08 2.634841e-02 
## 6 David fuser2016 time floor -8.175896e-07 1.550152e-07 1.479603e-05 
为 了 可 视 化 分 析 结 果 ， 对 David 和 Julia 今 年 使 用 tweet 的 情况 进行 绘图 (如 图 7-4 所 示 ) . 

















words by time $»$ 
inner join(top slopes, by = c("word", "person")) $» 
filter (person == "David") %>% 
ggplot (aes (time_floor, count/time_total, color = word, lty = word)) + 
geom line(size = 1.3) + ni 
labs(x = NULL, y = "Word frequency") 
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图 7-4: David tweets 中 的 热点 词 
从 图 7-4 可 以 看 到 ，David 在 参加 UseR 会 议 期 间 发 了 很 多 关于 该 会 议 的 tweet， 会 议 结束 后 就 停止 发 送 这 方面 的 tweet 了 。 并 且 David 在 2016 年 年 底 之 前 已 经 发 出 了 很 多 关于 Stack Overflow 的 消息 ， 而 
且 随 着 时 间 推移 ， 关 于 ggplot2 包 的 消息 也 变 少 了 。 
现在 对 Julia 发 生 的 tweet 中 单词 频率 变化 的 情况 进行 绘图 ， 如 图 7-5 所 示 。 
words by time %>% 
inner join(top slopes, by = c("word", "person")) $»$ 
filter (person == "Julia") %>% 
ggplot (aes (time_floor, count/time_total, color = word, lty = word)) + 
geom line (size = 1.3) + 
labs (x = NULL, y = "Word frequency") 
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图 7-5: Julia tweet 中 的 热点 词 














Julia 所 有 重要 的 斜率 都 是 负 的 ， 这 意味 着 她 没有 以 更 高 的 频率 使 

















表 新 的 博客 文章 时 所 使 

















收藏 和 转发 








tweet 的 另 一 个 : 
需要 构建 另 一 个 包含 这 些 信息 的 tweet 数 据 集 。 通 过 Twitter APl 来 访问 
的 活跃 量 日 益 增 加 ， 关 注 人 数 也 在 增加 。 








单词 的 频率 下 降 了 ， 如 #rstats 主 题 标签 和 “post”， 而 | 


任何 特定 词 来 发 布 tweet， 而 是 使 用 了 各 种 不 同 的 生 


hE 词 。Julia 的 tweet 在 今年 早 些 时 候 以 较 高 的 比例 包含 了 





图 中 给 出 的 单词 。Julia 在 发 





目 Julia 的 tweet 的 阅读 量 也 不 高 。 








要 特征 是 tweet 的 收藏 量 或 转发 量 。 现 在 来 看 看 包含 哪些 单词 的 tweet 更 有 可 能 被 Julia 和 David 转 发 或 者 收藏 。 当 
户 的 tweet， 并 且 每 个 账号 能 下 载 约 3200 个 tweet。 对 于 David 利 






































户 下 载 自己 的 Twitter 归档 文件 时 ， 不 包括 收藏 夹 和 转发 信息 ， 因 此 
pmJulia 而 言 ， 这 大 约 是 过 去 18 个 月 的 Twitter 数据 量 ， 这 表明 两 个 人 


























tweets julia <- read csv("data/juliasilge tweets.csv") 
tweets dave <- read csv ("data/drob tweets.csv") 
tweets <- bind rows(tweets julia %>% 


mutate (person = "Julia"), 
tweets dave $»$ 
mutate (person = "David")) %>% 


mutate (created at = ymd hms (created at)) 











现在 有 了 第 二 个 只 包含 最 近 tweet 的 较 小 数据 集 ， 使 
tweet。 








unnest tokens () 函数 将 这 些 tweet 转 换 成 整洁 数据 集 格式 。 从 该 数据 集中 删除 所 有 转发 和 回 





复 信 息 ， 只 看 David 和 Julia 直 接 发 布 的 普通 








tidy tweet %>% 
select (-source) 
filter(!str detect(text, "^(RT|8)")) %>% 
mutate (text : 








str replace all(text, replace reg, "")) %>% 


unnest tokens (word, text, token = "regex", pattern = unnest reg) %>% 

anti join(stop words) < 
tidy_tweets 
## # A tibble: 11,078 x 7 
dH id created at retweets favorites person word 
Hu «dbl» «int» «int» «chr» «chr» 
## 1 8.044026e«17 2016-12-01 19: 1 15 David worry 
## 2 8.043967e«17 2016-12-01 18: 4 6 David j's 
## 3 8.043611e«17 2016-12-01 16: 8 12 David bangalore 
## 4 8.043611e+17 2016-12-01 16: 8 12 David london 
## 5 8.043611e-17 2016-12-01 16: 8 12 David developers 
## 6 8.041571e417 2016-12-01 02: 0 11 Julia management 
## 7 8.041571e«17 2016-12-01 02: 0 11 Julia julie 
## 8 8.040582e«17 2016-11-30 20: 30 41 David sf 
## 9 8.040324e«17 2016-11-30 18: 0 17 Julia zipped 
## 10 8.040324e«17 2016-11-30 18:40:27 0 17 Julia gb 





## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 11,068 more rows 





首先 ， 来 看 看 每 个 tweet 被 转发 的 次 数 ， 以 及 每 个 人 转发 tweet 的 总 数 。 





totals <- tidy tweets %>% 
group by(person, id) %>% 
summarise(rts = sum(retweets)) 
group by(person) $»$ 
summarise (total rts 


2>% 


sum (rts) ) 
totals 


## # A tibble: 2 x 2 


## person total rts 
+t <chr> «int» 
## 1 David 110171 
## 2 Julia 12701 


现在 来 看 一 下 每 个 人 转发 tweet 数 量 的 中 位 数 ， 以 及 单词 相关 转发 tweet 数 量 的 中 位 数 。 可 能 只 想 将 每 个 tweet/word 组 合计 算 一 次 ， 所 以 将 使 
语句 中 ， 可 以 找到 每 个 人 转发 tweet 中 每 个 
数 来 过 滤 ， 保 留 至 少 出 现 过 5 次 的 单词 。 


summarize () 语句 计算 每 个 人 在 每 条 tweet 中 的 每 个 生 





Em 词 被 转发 的 次 数 。 在 第 二 个 summarize ( 
存在 uses 变 量 中 。 接 下 来 ， 可 以 将 该 结果 添加 到 转发 总 数 (total rts) 的 数 


E 














居 框 中 ， 使 用 filter () 




















group by () 和 summarize () 两 次 。 第 一 个 
a 词 数量 的 中 值 ， 计 算 每 个 单词 被 每 个 人 使 用 的 次 数 ， 并 保 














word by rts <- tidy tweets %>% 
group by(id, word, person) %>% 
summarise (rts first (retweets)) 
group by(person, word) $»$ 
summarise (retweets = median (rts), uses 
left join(totals) %>% 
filter(retweets !- 0) 
ungroup () 


S>% 


多 > 


word by rts %>% 
filter (uses >= 5) $»$ 
arrange (desc (retweets) ) 


## # A tibble: 178 x 5 

dH person word retweets uses total rts 
HE «chr» «chr» «dbl» «int» «int» 
## 1 David animation 85.0 5 110171 
## 2 David download 52.0 5 110171 
## 3 David start 51.0 7 110171 
## 4 Julia tidytext 50.0 7 12701 
## 5 David gganimate 45.0 8 110171 
## 6 David introducing 45.0 6 110171 
HOT David understanding 37.0 6 110171 
## 8 David 0 35.0 7 110171 
## 9 David error 34.5 8 110171 
## 10 David bayesian 34.0 了 110171 


### http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/...With 168 more rows 











在 这 个 排 好 序 的 数据 框 上 方 可 看 到 








word by rts %>% 
filter(uses >= 5) 
group by (person) 
top n(10, retweet: 
arrange (retweets) 
ungroup() %>% 
mutate (word = factor (word, unique(word))) $»' 
ungroup() %>% 
ggplot (aes (word, retweets, fill = person)) + 
geom col(show.legend = FALSE) + 
facet wrap(~ person, scales = " 

coord flip() + 


u oe 


ncol = 2) + 


free", 


于 处 理 Julia 和 David tweet 相 关 工 作 的 包 ， 如 gutenbergr、gganimate 和 tidytext。 








展示 每 个 账户 转发 量 最 高 的 中 值 单词 (如 








7-6 所 示 ) 。 





labs(x = NULL, 
y = "Median # of retweets for tweets containing each word") 
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图 7-6: 具有 最 高 转发 中 值 的 单词 
可 以 看 到 很 多 R 包 ,包括 所 看 到 的 tidytext 包 ! “0” 是 David 在 tweet 中 提 到 的 软件 包 的 版 本 号 ， 类 似 于 “broom 0.4.0" , 


可 以 按照 类 似 的 程序 来 看 看 包含 哪些 单词 的 tweet 会 导致 更 多 的 收藏 ， 导 致 更 多 收藏 的 单词 是 否 与 导致 更 多 转发 的 单词 不 同 ? 





totals <- tidy tweets %>% 
group by(person, id) %>% 
summarise (favs = sum(favorites)) %>% 
group by (person) %>% 
summarise(total favs = swm (favs) ) 


word by favs <- tidy tweets %>% 
group by(id, word, person) $»$ 
summarise (favs = first(favorites)) $»$ 
group by (person, word) %>% 
summarise (favorites = median (favs), uses = n()) $5$ 
left_join (totals) %>% 
filter (favorites != 0) %>% 
ungroup () 








现在 ， 已 经 建立 了 所 需要 的 数据 框 ， 可 视 化 结果 见 图 7-7。 





word by favs $»$ 
filter (uses >= 5) %>% 
group _by (person) %>% 
top n(10, favorites) %>% 
arrange (favorites) %>% 
ungroup() %>% 
mutate (word = factor (word, unique (word) ) ) %>% 
ungroup() %>% 
ggplot(aes(word, favorites, fill = person)) + 
geom col(show.legend = FALSE) + 
facet wrap(- person, scales = "free", ncol = 2) + 
coord flip() * 
labs(x = NULL, 
y = "Median # of favorites for tweets containing each word") 
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各 个 单词 的 被 收藏 tweet 的 中 位 数 











7-7: 导致 收藏 tweet 量 中 值 最 高 的 单词 








可 以 看 到 图 7-6 和 图 7-7 之 间 一 些小 的 区 别 ， 特 别 是 在 排名 前 十 的 单词 下 面 ， 但 这 些 差异 大 部 分 与 转发 量 相同 。 一 般 来 说 ， 导 致 转发 的 单词 与 导致 收藏 的 单词 相同 。 两 幅 图 中 Julia 突 出 的 单词 是 她 参加 
NASA Datanauts Program 的 主题 标签 。 阅 读 第 8 章 ， 可 以 了 解 NASA 数 据 的 更 多 信息 ， 并 且 可 以 从 NASA 数 据 集 的 文本 分 析 中 学 到 一 些 东西 。 








总 结 


LN 一口 


本 章 是 本 书 的 第 一 个 研究 案例 ， 通 过 完整 的 分 析 ， 以 cohesive 的 方式 来 展示 如 何 用 代码 来 实现 曾经 介绍 过 的 概念 ， 从 而 理解 文本 数据 集 。 通 过 比较 词 频 可 以 看 到 包含 哪些 单词 的 tweet 其 发 送 频率 会 有 
多 高 ， 而 对 数 概率 比 给 出 用 户 对 包含 哪些 单词 的 tweet 进 行 发 布 的 可 能 性 。nest () 函数 、map () 函数 会 与 glm () 函数 一 起 使 用 ， 其 目的 是 查看 随 着 时 间 推移 用 户 以 多 高 的 频率 发 布 与 某 些 单 词 相关 的 
tweet。 最 后 ， 可 以 看 到 tweet 中 哪些 单词 会 导致 更 多 的 转发 和 收藏 。 所 有 这 些 例 子 都 衡量 了 用 户 发 tweet 时 使 用 单词 的 相同 之 处 和 不 同 之 处 ， 以 及 tweet 特 征 是 如 何 变化 的 、 不 同 用 户 之 间 如 何 比较 tweet 特 
征 。 这 些 都 是 灵活 的 文本 挖掘 方法 ， 可 应 用 于 其 他 类 型 的 文本 。 

















第 8 章 ”案例 研究 : NASA 元 数据 挖掘 





NASA 托 管 (或 维护 着 ) 超过 32000 个 数据 集 ， 这 些 数 据 集 涵盖 了 从 地 球 科学 到 航空 航天 工程 的 主题 ， 同 时 还 有 NASA 本 身 管理 的 主题 。 通 过 这 些 数据 集 的 元 数据 可 以 了 解 不 同 主题 之 间 的 关系 。 


人 什么 是 元 数据 ? 元 数据 是 一 种 术语 ， 是 一 些 可 以 提供 其 他 数据 信息 的 数据 。 本 文 的 元 数据 可 以 告知 用 户 在 大 量 NASA 数 据 集 里 有 什么 ， 但 并 不 包括 NASA 数 据 集 本 身 的 内 容 。 





元 数据 包括 数据 集 的 标题 、 描 述 字段 、NASA 中 负责 数据 集 的 组 织 、 由 人 工 标注 的 数据 集 关键 词 等 信息 。 美 国 宇航 局 高 度 重视 这 些 数据 的 开放 和 访问 情况 ， 甚 至 要 求 所 有 由 NASA 资 助 的 研究 都 要 能 有 效 
地 在 线 公 开 ， 所 有 数据 集 的 元 数据 公开 的 格式 为 JJON。 


本 章 将 NASA 元 数据 看 作 一 个 文本 数据 集 ， 并 研究 如 何 利用 这 个 现实 中 的 文本 来 实现 整洁 文本 处 理 。 利 用 共同 出 现 (co-occurrence) 和 相关 的 单词 、tf-idf 和 主题 建 模 来 研究 数据 集 之 间 的 连接 。 那 
么 ,可 以 找到 相互 关联 的 数据 集 吗 ? 可 以 找到 相似 的 数据 集 集合 吗 ? 由 于 在 NASA 元 数据 中 有 一 些 文本 字段 ， 以 及 最 重要 的 标题 、 描 述 和 关键 词 字段 ， 因 此 ， 可 以 研究 这 些 领 域 之 间 的 联系 ， 以 更 好 地 理解 
NASA 中 复杂 的 数据 世界 。 这 种 方法 可 以 扩展 到 文本 处 理 的 任何 领域 ， 下 面 来 看 看 这 个 元 数据 并 开始 案例 分 析 吧 。 





NASA 如 何 组 织 数 据 


首先 下 载 JSON 文 件 ， 并 查看 元 数据 中 所 存储 的 内 容 的 名 称 。 





library (jsonlite) 

metadata <- fromJSON ("https://data.nasa.gov/data.json") 

names (metadata$dataset) 

$+ [1] " id" "QGtype" "accessLevel" 


## [4] "accrualPeriodicity" "bureauCode" "contactPoint" 
## [7] "description" "distribution" "identifier" 

## [10] "issued" "keyword" "landingPage" 
## [13] "language" "modified" "programCode" 
## [16] "publisher" "spatial" "temporal" 

## [19] "theme" "trtle" "license" 

## [22] "isPartof" "references" "rights" 

## [25] "describedBy" 





通过 上 面 的 结果 可 以 看 到 : 可 从 每 个 发 布 的 数据 集 以 及 相应 的 发 布 版 本 中 提取 一 些 有 用 信息 。 


每 个 数据 集 的 标题 、 描 述 和 关键 词 对 于 绘制 数据 集 之 间 的 关系 是 最 有 


























的 。 那 么 接 下 来 就 提取 这 些 








class (metadata$dataset $title) 
## [1] "character" 

class (metadata$dataset$description) 
## [1] 


"character" 


class (metadata$dataset$keyword) 


HW [1] 


"list" 





标题 和 描述 字段 被 存储 为 字符 向 量 ， 但 是 关键 词 则 被 存储 为 字符 向 量 列表 。 


杂乱 的 数据 与 整洁 的 数据 


为 标题 、 描 述 和 关键 词 字 段 设 置 和 





a 独 的 整洁 数据 框 ， 保 留 每 个 数据 集 的 ID， 以 便 在 稍 后 的 分 析 中 能 连接 起 来 。 





library (dplyr) 


nasa title <- data frame(id = metadata$dataset$" id'$'$oid', 


title 


nasa title 


## # A tibble: 32,089 x 2 


3E 
* 
0 -0o0U05(0ND|D 


id 

«chr» 
55942a57c63a7fe59b495a77 
55942a57c63a7fe59b495a78 
55942a58c63a7fe59b495a79 
55942a58c63a7fe59b495a7a 
55942a58c63a7fe59b495a7b 
55942a58c63a7fe59b495a7c 
55942a58c63a7fe59b495a7d 
55942a58c63a7fe59b495a7e 
55942a58c63a7fe59b495a7f 


## 10 55942a58c63a7fe59b495a80 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


= metadata$dataset$title 


title 
<chr> 


15 Minute Stream Flow Data: USGS (FIFE 


15 Minute Stream Flow Data: USGS 
15 Minute Stream Flow Data: USGS 


2000 Pilot Environmental 
2000 Pilot Environmental 
2000 Pilot Environmental 
2001 Environmental 
2001 Environmental 
2001 Environmental 
2001 Environmental 


(FIFE 

(FIFE 

Sustainability Index (ESI 
Sustainability Index (ESI 
Sustainability Index (ESI 
Sustainability Index (ESI 
Sustainability Index (ESI 
Sustainability Index (ESI 
Sustainability Index (ESI 


with 32,079 more rows 





这 些 只 是 即将 进行 研究 的 数据 集中 的 几 个 例子 。 请 注意 ， 这 里 有 NASA 分 配 的 ID， 这 是 

















为 不 同 的 数据 集 可 能 有 重复 的 标题 。 





nasa desc <- data frame(id = metadata$dataset$" id'$'$oiqd', 
metadata$dataset$description) 


desc - 


nasa desc $»$ 
select (desc) %>% 
sample_n (5) 

## A tibble: 5 x 1 


## 1 MODIS (or Moderate Resolution Imaging Spectroradiometer) is a key instrument 
Fatigue Countermeasures: A Meta-Ana 
## 3 Mobile communications systems require programmable embedded platforms that 
## 4 The Doppler Aerosol WiNd (DAWN), a pulsed lidar, operated aboard a NASA DC- 
## 5 MODIS (or Moderate Resolution Imaging Spectroradiometer) is a key instrument 


H2 





这 里 给 出 了 从 元 数据 中 所 选 定 的 几 个 描述 字段 的 第 一 部 分 。 


现在 可 以 为 关键 词 构建 整洁 数据 框 。 由 于 这 里 的 关键 词 在 列表 中 ， 








DH 








因此 使 





tidyr 包 的 unnest () 


函数 即 可 。 





library (tidyr) 


nasa keyword <- data frame(id = metadata$dataset$" id'$'Soid', 
keyword = metadata$dataset$keyword) %>% 


unnest (keyword) 


nasa keyword 


## # A tibble: 126,814 x 2 


3E 
* 
Q0 am 上 wh 


id 

Xchr» 
55942a57c63a7fe59b495a77 
55942a57c63a7fe59b495a77 
55942a57c63a7fe59b495a77 
55942a57c63a7fe59b495a78 
55942a57c63a7fe59b495a78 
55942a57c63a7fe59b495a78 
55942a58c63a7fe59b495a79 
55942a58c63a7fe59b495a79 
55942a58c63a7fe59b495a79 


## 10 55942a58c63a7fe59b495a7a 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


keyword 

«chr» 

EARTH SCIENCE 
HYDROSPHERE 
SURFACE WATER 
EARTH SCIENCE 
HYDROSPHERE 
SURFACE WATER 
EARTH SCIENCE 
HYDROSPHERE 
SURFACE WATER 
EARTH SCIENCE 


with 126,804 more rows 








为 了 进行 文本 分 析 ， 可 
工 标注 过 的 ,例如 “辐射 ” 


























因为 每 个 关键 词 都 有 一 行 ， 所 以 这 是 一 个 整洁 数据 框 ， 又 由 于 数据 集 有 多 个 关键 词 ， 所 以 每 个 数 


(CLIMATE INDICATORS) 。 


居 集 会 有 多 个 行 。 








tidytext 包 中 的 unnest tokens () 函数 来 处 理 标题 和 描述 字段 ， 还 需要 从 标题 和 描述 字段 中 删除 停 用 词 。 这 里 不 会 从 关键 词 中 删除 停 用 词 ， 因 
(RADIATION) 或 “气候 指标 


为 这 些 关键 词 很 短 ， 并 且 也 是 人 





library (tidytext) 


nasa title <- nasa title %>% 


unnest tokens (word, title) 
anti 





oin(stop words) 


nasa desc <- nasa desc $»$ 
unnest tokens (word, desc) $»$ 


anti 





join(stop words) 


5>% 





这 些 是 本 书 一 直 在 使 














的 整洁 文本 格式 ， 这 种 格式 是 指 每 行 一 个 词 条 (这 里 指 单词 ) ， 在 进一步 分 析 之 前 ， 先 来 看 看 这 些 整洁 文本 。 





nasa title 


## # A tibble: 210,914 x 2 


id 

«chr» 
56d07ee5a759fdadc44e5923 
56d07ee5a759fdadc44e5923 
56d07c16a759fdadc44e5922 
56d07c16a759fdadc44e5922 


word 
«chr» 
marble 
epic 
fitara 
ocio 


## 5 56cf5b00a759fdadc44e5849 implementing 
## 6 56cf5b00a759fdadc44e5846 receding 
## 7  56cf5b00a759fdadc44e5846 recursive 
## 8 56cf5b00a759fdadc44e5840 complaints 
## 9 56cf5b00a759fdadc44e583b Score 
## 10 56cf5b00a759fdadc44e583a fix 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 210,904 more rows 
nasa desc 


## # A tibble: 2,677,811 x 2 


Hr id word 
HW «chr» «chr» 
## 1  56d07c16a759fdadc44e5922 fitara 
## 2 56d07c16a759fdadc44e5922 ocio 
## 3  56cf5b00a759fdadc44e584a . degradation's 
## 4 56cf5b00a759fdadc44e5847 dchwpls 
## 5  56cf5b00a759fdadc44e5847 dchwplsp 
## 6 56cf5b00a759fdadc44e5847 dchwdp 
## 7 56cf5b00a759fdadc44e5847 dchwsnf 
## 8  56cf5b00a759fdadc44e5847 dchwssf 
## 9 56cf5b00a759fdadc44e5847 bursting 


## 10 56cf5b00a759fdadc44e5847 consequentially 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 2,677,801 more rows 





一 些 初 步 简单 的 研究 








NASA 数 据 集 标题 中 最 常用 的 单词 是 什么 呢 ? 可 以 使 用 dplyr 包 中 的 count () 函数 来 得 到 。 





nasa title %>% 
count(word, sort = TRUE) 


## # A tibble: 11,614 x 2 


HW word n 
HW «chr» «int» 
## 1 project 7735 
H2 data 3354 
H3 1 2841 
dA level 2400 
## 5 global 1809 
## 6 vl 1478 
## 7 daily 1397 
## 8 3 1364 
Ho aura 1363 
## 10 12 1311 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 11,604 more rows 





那么 ，NASA 数 据 集 的 描述 中 最 常用 的 单词 是 什么 呢 ? 








nasa desc $»$ 
count(word, sort = TRUE) 


## # A tibble: 35,940 x 2 


HW word n 
Hu «chr» «int» 
Hl data 68871 
#2 modis 24420 
H3 global 23028 
## 4 2 16599 
## 5 1 15770 
H6 system 15480 
## 7 product 14780 
H8 aqua 14738 
Ho earth 14373 


## 10 resolution 13879 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 35,930 more rows 





在 NASA 的 标题 和 描述 中 经 常 使 用 像 “data” 和 “global” 这 样 的 单词 。 在 对 多 种 类 型 文本 数据 进行 分 析 时 ， 可 能 想 从 这 些 数据 框 中 删除 数字 和 一 些 类 似 “v1” 这 样 的 “单词 ”， 对 于 大 多 数 人 来 说 ， 
这 些 词 没有 太 大 的 意义 。 



































傅 为 了 从 数据 杠 中 删除 这 些 文本 ， 可 采用 列 出 自 定义 停 用 词 的 方式 ， 并 使 用 anti join () 函数 ， 就 像 删除 tidytext 包 中 默认 的 停 用 词 一 样 。 这 种 方法 可 以 在 很 多 情况 下 使 用 ， 是 一 个 很 好 的 整洁 工具 。 














my stopwords «- data frame (word = c(as.character(1:10), 
"yl", "ugs", "12", "T3M, "14", "95,2 0", 
"v003", "v004", "v005", "v006", "v7")) 
nasa title <- nasa title %>% 
anti join(my stopwords) 
nasa desc <- nasa desc %>% 
anti join(my stopwords) 














最 常用 的 关键 词 是 什么 呢 ? 














nasa keyword %>% 
group by(keyword) %>% 
count(sort = TRUE) 


## # A tibble: 1,774 x 2 


HE keyword n 
HW «chr» «int» 
Wl EARTH SCIENCE 14362 
H2 Project 7452 
H3 ATMOSPHERE 7321 
HA Ocean Color 7268 
H5 Ocean Optics 7268 
H6 Oceans 7268 
HET completed 6452 
## 8 ATMOSPHERIC WATER VAPOR 3142 
H9 OCEANS 2765 
## 10 LAND SURFACE 2720 
+ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17479/0EBPS/Text/... with 1,764 more rows 








可 能 希望 将 所 有 关键 词 更 改 为 小 写 或 大 写 ， 以 避免 “OCEANS” 和 “Oceans” 这 样 的 重复 项 。 可 按 如 下 方式 来 实现 : 








nasa keyword <- nasa keyword %>% 
mutate (keyword = toupper (keyword) ) 





共 现 单词 与 相关 单词 





下 面 来 看 看 第 4 章 中 介绍 过 的 NASA 数 据 集 的 标题 、 描 述 和 关键 词 中 通常 会 出 现 哪些 单词 。 然 后 给 出 这 些 字段 的 单词 网 络 ， 这 可 能 有 助 于 看 出 哪些 数据 集 之 间 是 相互 关联 的 。 











描述 和 标题 单词 的 网 络 











可 以 使 用 widyr 包 中 的 pairwise count () 函数 来 计算 单词 对 在 标题 或 描述 字段 中 同时 出 现 的 次 数 。 








library (widyr) 


title word pairs <- nasa title %>% 
pairwise count(word, id, sort = TRUE, upper = FALSE) 


title word pairs 
## # A tibble: 156,689 x 3 


dH iteml item2 n 
HW «chr» — «chr» «dbl» 
## 1 system project 796 
H2 lba eco 683 
H3 airs aqua 641 
## 4 level aqua 623 
## 5 level airs 612 
## 6 aura omi 607 
## 7 global grid 597 
## 8 global daily 574 
Ho data boreas 551 


14 10 ground gpm 550 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 156,679 more rows 




















这 些 是 在 标题 字段 中 最 常 一 起 出 现 的 单词 对 ， 其 中 的 一 些 词 显然 是 NASA 使 用 的 首 字 母 缩 略 词 ， 并 且 还 可 以 看 到 经 常 使 用 的 某 些 单词 (EAD "project" P "system" ) . 





desc word pairs <- nasa desc $»$ 
pairwise count(word, id, sort = TRUE, upper = FALSE) 


desc word pairs 


## # A tibble: 10,889,084 x 3 


HH iteml item2 n 
HW «chr» «chr» «dbl» 
HI data global 9864 
H2 data resolution 9302 
## 3 instrument resolution 8189 
Hr data surface 8180 
## 5 global resolution 8139 
## 6 data instrument 7994 
#7 data system 7870 
## 8 resolution bands 7584 
## 9 data earth 7576 
## 10 orbit resolution 7462 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 10,889,074 more rows 





这 些 是 在 描述 字段 中 最 常 出 现 的 单词 对 。 “Data” 在 描述 字段 中 是 一 个 非常 常见 的 单词 ， 在 NASA 数 据 集中 不 存在 数据 不 足 的 问题 ! 











为 了 更 好 地 查看 共同 出 现 的 单词 对 的 网 络 ， 可 对 该 关系 进行 绘图 ， 这 里 再 次 使 用 ggraph 包 来 进行 可 视 化 ， 如 图 8-1 所 示 。 























library (ggplot2) 
library (igraph) 
library (ggraph) 


set.seed (1234) 
title word pairs %>% 
filter(n >= 250) %>% 
graph from data frame() $»$ 
ggraph(layout = "fr") 十 
geom edge link(aes(edge alpha = n, edge width = n), edge colour = "cyan4") + 
geom node point(size = 5) 十 
geom node text(aes(label = name), repel = TRUE, 
m point.padding = unit(0.2, "lines")) + 
theme void() 





2000 


gem 
data ste ase 


* 
surface e 






control 





low applications 
@ systems 
space 
@"" e * 
power sensor 
zone ] n 
B brazil 
total 300 
e 9 400 
8 lba eco mW 500 
deg degree , E 600 
g” E 7oo 
orbit 
dbol é 
t product 
min modis = average 
hysical 
® aqua e 
terra , i 
retrieval airs — 
gpm lidation 
ground 


图 8-1: NASA 数 据 集中 标题 的 单词 网 络 























在 这 个 标题 的 单词 网 络 中 可 以 看 到 一 些 清晰 的 聚 类 ，NASA 数 据 集 的 标题 中 形成 了 几 个 大 的 单词 聚 徐 。 那 么 来 自 描述 字段 的 单词 网 络 又 是 怎样 的 呢 (如 图 8-2 所 示 ) ? 








set.seed(1234) 
desc word pairs $»$ 
filter(n >= 5000) %>% 
graph from data frame() $»$ 
ggraph (layout = "fr") 十 
geom edge_link (aes (edge_alpha = n, edge_width = n), edge_colour = "darkred") + 
geom node _ point (size = 5) + 
geom node text (aes (label = name), repel = TRUE, 
a T point.padding = unit (0.2, "lines")) + 
theme void() 


























于 8-2 展 示 了 前 十 几 个 单词 (比如 “data” "global" "resolution" #0 "instrument" $&&us]) 之 间 的 强 连 接 网 络 关系 ， 但 是 该 网 络 并 没有 明确 的 聚 类 结构 。 对 于 这 个 结果 ， 可 能 希望 改 用 tf-idf (在 
本 书 第 3 章 中 进行 了 详细 描述 ) 作为 度量 标准 ， 以 查找 每 个 描述 字段 中 的 特征 词 (characteristic word) ， 而 不 是 查看 单词 数 。 








P iii 


atmosphere 
level e" 


product 


north 


que 


modis 


Somen 





development aboard 











8-2: NASA 数 据 集中 描述 字段 中 的 单词 网 络 





关键 词 网 络 


下 面 来 绘制 关键 词 网 络 (如 图 8-3 所 示 ) ， 从 而 得 到 在 同一 数据 集中 哪些 关键 词 经 常 一 起 出 现 。 


processes 


g" 


time 





keyword pairs <- nasa keyword b>% 
pairwise_count (keyword, id, sort = TRUE, upper = FALSE) 


keyword pairs 

## A tibble: 13,390 x 3 

H iteml item2 n 
dH «chr» «chr» «dbl» 
HI OCEANS OCEAN OPTICS 7324 
## 2 EARTH SCIENCE ATMOSPHERE 7318 
H3 OCEANS OCEAN COLOR 7270 
## 4 — OCEAN OPTICS OCEAN COLOR 7270 
## 5 PROJECT COMPLETED 6450 
## 6 EARTH SCIENCE ATMOSPHERIC WATER VAPOR 3142 
HET ATMOSPHERE ATMOSPHERIC WATER VAPOR 3142 
## 8 EARTH SCIENCE OCEANS 2762 
## 9 EARTH SCIENCE LAND SURFACE 2718 
## 10 EARTH SCIENCE BIOSPHERE 2448 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 13,380 more rows 
set.seed (1234) 
keyword pairs %>% 
filter(n >= 700) $5$ 
graph from data frame() $»$ 
ggraph (layout = "fr") 十 
geom edge link(aes(edge alpha = n, edge width = n), 
edge colour = "royalblue") + 
geom node point(size = 5) 十 
geom node text(aes(label = name), repel = TRUE, 
point.padding = unit(0.2, "lines")) 十 
theme void() 
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图 8-3: NASA 数 据 集中 同时 出 现 的 关键 词 的 网 络 


在 图 8-3 中 可 以 清楚 地 看 到 聚 类 的 结果 ， 以 及 诸如 “OCEANS“″ "OCEAN OPTICS” #0 “OCEAN COLOR" , BẸ “PROJECT” #0 “COM PLETED” 等 关键 词 之 间 有 着 密切 的 联系 。 





A 这些 是 最 常见 的 共同 出 现 的 单词 ， 一 般 情况 下 ， 也 是 最 常用 的 关键 词 。 




















为 了 以 不 同方 式 来 检查 关键 词 之 间 的 关系 ， 可 以 查看 第 4 章 中 对 关键 词 之 间 关 系 的 介绍 ， 来 查找 与 描述 字段 中 更 容易 出 现 的 关键 词 。 





keyword cors <- nasa keyword $»$ 
group by(keyword) $»$ 
filter(n() >= 50) %>% 
pairwise cor(keyword, id, sort = TRUE, upper = FALSE) 


keyword cors 


## # A tibble: 7,875 x 3 
HW iteml item2 correlation 


Hn «chr» «chr» «dbl» 
HI KNOWLEDGE SHARING 1.0000000 
## 2 DASHLINK AMES 1.0000000 
H3 SCHEDULE  EXPEDITION 1.0000000 
## 4 TURBULENCE MODELS 0.9971871 
H5 APPEL KNOWLEDGE 0.9967945 
## 6 APPEL SHARING 0.9967945 
HET OCEAN OPTICS OCEAN COLOR 0.9952123 
## 8 ATMOSPHERIC SCIENCE CLOUD 0.9938681 
H9 LAUNCH SCHEDULE 0.9837078 
## 10 LAUNCH EXPEDITION 0.9837078 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 7,865 more rows 



































注意 ， 上 面 的 数据 框 中 关键 词 的 相关 性 系数 为 1， 这 表明 这 些 关键 词 总 是 一 起 出 现 ， 是 元 余 的 。 若 同时 使 用 这 两 组 中 的 关键 词 对 可 能 没有 什么 意义 ， 因 此 ， 只 使 用 其 中 的 一 个 关键 词 即 可 。 











就 像 对 共同 出 现 的 关键 词 对 进行 可 视 化 处 理 那样 ， 也 可 以 可 视 化 相关 关键 词 对 的 网 络 (如 图 8-4 所 示 ) . 








Set .seed (1234) 
keyword cors $5$ 
filter (correlation > .6) %>% 
graph from data frame() %>% 
ggraph (layout = "fr") 十 
geom edge_link (aes (edge_alpha = correlation, edge_width = correlation), 
edge_colour = "royalblue") + 
geom node point (size = 5) + 
geom node text (aes (label = name), repel = TRUE, 
S point.padding = unit(0.2, "lines")) + 
theme void() 











司 8-4 中 的 网 络 看 起 来 和 共同 出 现 的 关键 词 网 络 有 很 大 不 同 ， 即 共同 出 现 网 络 解决 的 问题 是 哪些 是 最 常 一 起 出 现 的 关键 词 对 ， 相 关 性 网 络 解决 的 是 哪些 关键 词 会 更 频繁 地 一 起 出 现 。 请 注意 这 里 有 很 多 比 
较 小 的 关键 词类 艇 ,可 以 通过 上 面 的 graph_from_data_frame () 函数 提取 聚 簇 的 网 络 结构 (以 便 进一步 分 析 ) 。 
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图 8-4: NASA 数 据 集 中 关键 词 的 相关 性 网 络 


计算 描述 字段 的 tf-idf 























由 图 8-2 中 的 网 络 可 以 看 出 在 描述 字段 中 “data”“global” 和 “resolution” 等 常用 词 占 主导 地 位 。 这 种 情形 就 可 很 好 地 利用 tf-idf 统 计量 ， 可 用 该 统计 量 来 得 到 每 个 描述 字段 中 的 特征 词 。 根 据 第 3 章 
所 讨论 的 内 容 ， 可 以 使 用 tf-idf 来 识别 出 文档 中 特别 重要 的 单词 ， 也 可 使 用 该 方法 处 理 NASA 数 据 集 的 描述 字段 。 






























































什么 是 摘 述 字段 词 的 tf-idf 











这 里 将 考虑 每 个 文档 的 描述 字段 ， 以 及 整个 文档 集合 或 语料库 中 的 描述 字段 集 。 在 本 章 前 面 已 经 使 用 了 unnest tokens () 函数 ， 以 便 将 描述 字段 转换 成 整洁 数据 框 ， 因 此 ， 现 在 可 以 使 用 
bind tf idf O 函数 来 计算 每 个 单词 的 tf-idf 值 。 




















desc tf idf <- nasa desc %>% 
count(id, word, sort = TRUE) %>% 
ungroup() $»$ 
bind tf idf(word, id, n) 





在 NASA 数 据 集中 的 描述 字段 中 ， 哪 些 单词 的 tf-idf 值 最 高 ? 











desc tf idf %>% 
arrange(-tf idf) %>% 
select (-id) 


## # A tibble: 1,913,224 x 6 


dH word n tf idf 
dH «chr» «int» «dbl» «dbl» 
## 1 rdr 1 1 10.375052 
## 2 palsar radiometric terrain corrected high res 1 1 10.375052 
## 3 cpalsar radiometric terrain corrected low res ua 1 10.375052 
## 4 = = T ^  lgrs 1 1 8.765615 
H5 lgrs 下 1 8.765615 
H6 lgrs i 1 8.765615 
HET mri 1 1 8.583293 
H8 template proddescription 1 1 8.295611 
## 9 template proddescription 1 1 8.295611 
## 10 template proddescription 1 1 8.295611 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 1,913,214 more rows, and 1 more variables: tf idf «dbl» 














这 些 是 通过 tf-idf 对 描述 字段 进行 度量 而 得 到 的 最 重要 的 单词 ， 这 个 结果 表示 这 些 词 是 常见 的 ， 但 不 是 太 常见 














全 注意 ， 在 这 里 有 一 个 问题 : 对 于 这 些 词 项 ，n 以 及 词 项 频率 都 等 于 1， 这 意味 着 在 描述 字段 中 这 些 重要 的 单词 只 包含 一 个 。 如 果 描述 字段 只 包含 一 个 单词 ， 那 么 tf-idf 算 法 会 认为 这 个 词 非常 重要 。 




















基于 本 书 的 分 析 目标 ， 将 所 有 包含 单词 较 少 的 描述 字段 删 去 可 能 会 很 好 。 


将 描述 字段 与 关键 词 联系 起 来 





现在 已 经 知道 在 描述 字段 中 哪些 单词 具有 较 高 的 tf-idf 值 ， 并 且 还 在 关键 词 中 标注 了 这 些 单词 ， 那 么 可 以 使 用 tf-idf 将 关键 词 的 数据 框 和 描述 字段 的 数据 框 完全 连接 起 来 ， 然 后 找到 给 定 关键 词 的 中 具有 











最 高 tf-idf 值 的 单词 。 





desc tf idf «- full join(desc tf idf, nasa keyword, by = "id") 





下 面 对 NASA 数 据 集 上 一 些 示例 关键 词 中 的 最 重要 单词 采用 tf-idf 度 量 获 得 ) 绘图 。 首 先 ， 使 用 dplyr 操 作 来 过 滤 待 查 找 的 关键 词 ， 并 为 每 个 关键 词 选择 出 前 15 个 单词 。 然 后 对 这 些 单词 进行 绘图 ， 如 
图 8-5 所 示 。 




















desc tf idf $»$ 
filter(!near(tf, 1)) %>% 
filter(keyword $in$ c("SOLAR ACTIVITY", "CLOUDS", 
"SEISMOLOGY", "ASTROPHYSICS", 
"HUMAN HEALTH", "BUDGET")) %>% 
arrange (desc (tf_ idf)) $»$ 
group by(keyword) %>% 
distinct (word, keyword, .keep all = TRUE) $»$ 
top n(15, tf idf) %>% 
ungroup() %>% 
mutate (word = factor (word, levels = rev (unique (word) ) ) ) $»$ 
ggplot(aes(word, tf idf, fill = keyword)) 十 
geom col(show.legend = FALSE) + 
facet wrap(-keyword, ncol = 3, scales = "free") + 
coord flip() + 
labs(title = "Highest tf-idf words in NASA metadata description fields", 
caption = "NASA metadata from https://data.nasa.gov/data.json", 
x = NULL, y = "tf-idf") 














在 NASA 元 数据 描述 字段 中 有 较 高 tf-idf 值 的 单词 
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NASA 元 数据 来 自 http://data.nasa.gov/data.json 





图 8-5: 单词 的 tfidf 分 布 ， 这 些 单词 来 自 标注 数据 集中 选 定 的 关键 词 


使 用 tf-idf 可 以 为 每 个 关键 词 识别 出 描述 字段 中 的 重要 单词 。 在 有 关键 词 “SEISMOLOGY” 的 标注 数据 集中 有 诸如 “earthquake” “risk” 和 “hazard” 等 单词 ,而 标 有 “HUMAN HEALTH” 的 关键 
AWA “wellbeing” “vulnerability” 和 “children” 等 单词 来 刻画 描述 。 大 多 数 不 是 英文 单词 的 字母 组 合 其 实 是 首 字母 的 缩写 (如 OMB 是 the Office of Management and Budget 的 缩写 ) ， 而 年 份 和 
数字 的 例子 对 于 主题 而 言 很 重要 。tf-idf 统 计量 已 经 确定 了 单词 的 种 类 ， 即 在 文档 集合 中 单个 文档 的 重要 单词 。 














主题 建 模 


用 tf-idf 作 为 统计 量 可 深入 了 解 NASA 数 据 集中 描述 字段 的 内 容 ， 但 这 里 将 尝试 另外 的 方法 来 回答 问题 一 NASA 数 据 集中 描述 字段 要 表达 什么 意思 。 这 里 要 使 用 第 6 章 所 讨论 的 主题 建 模 方法 ， 即 把 每 个 
文档 (描述 字段 ) 看 作 是 来 自 不 同 主题 文本 的 组 合 ， 并 将 每 个 主题 看 作 是 单词 组 合 而 成 的 。 与 前 面 的 章节 一 样 ， 使 用 LDA (Latent Dirichlet Allocation) 方法 进行 主题 建 模 ， 当 然 ， 还 可 以 使 用 其 他 的 主题 
建 模 方法 。 




















转换 的 文 树 - 词 项 矩阵 





要 实现 主题 建 模 ， 需 要 利用 tm 包 创 建 一 个 DocumentTermMatrix， 这 是 一 种 特殊 的 矩阵 (当然 这 只 是 普通 文档 - 词 项 矩阵 概念 的 具体 实现 ) 。 行 对 应 于 文档 (本 案例 中 的 描述 字段 ) ， 列 对 应 于 词 项 
( 即 单词 ) ，DocumentTermMatrix 是 一 个 稀疏 和 矩 阵 ， 每 个 矩 阵 元 素 的 取 值 是 单词 数目 。 























为 了 从 HTML 或 其 他 字符 编码 中 删除 一 些 不 重要 的 “单词 ”， 可 使 用 停 用 词 来 稍微 处 理 一 下 文本 。 可 使 用 bind_rows () 函数 将 自 定义 的 停 用 词 添 加 到 tidytext 包 中 默认 的 停 用 词 列 表 中 ， 然 后 使 用 
anti join () 函数 从 数据 框 中 一 次 性 删除 这 些 自 定义 的 停 用 词 。 














my stop words <- bind rows (stop words, 
data frame(word = c("nbsp", "amp", "gt", "lt", 


"timesnewromanpsmt", "font", 
"td", "li", "br", "tr", "quot", 
"st", "img", "src", "strong", 


"http", "file", "files", 
as.character (1:12)), 
lexicon - rep("custom", 30))) 


word counts <- nasa desc %>% 
anti join(my stop words) %>% 
count(id, word, sort = TRUE) $» 
ungroup () 


de 


word counts 


## # A tibble: 1,895,310 x 3 


dH id word n 
HW «chr» «chr» «int» 
## 1  55942a8ec63a7fe59b4986ef suit 82 
## 2 55942a8ec63a7fe59b4986ef Space 69 
## 3 56cf5b00a759fdadc44e564a data 41 
## 4 56cf5b00a759fdadc44e564a leak 40 
## 5 56cf5b00a759fdadc44e564a tree 39 
## 6 55942a8ec63a7fe59b4986ef pressure 34 
## 7 55942a8ec63a7fe59b4986ef system 34 
## 8  55942a89c63a7fe59b4982d9 em 32 
## 9 55942a8ec63a7fe59b4986ef al 32 


## 10 55942a8ec63a7fe59b4986ef human 31 
i # http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17479/0EBPS/Text/... with 1,895,300 more rows 





























每 个 文档 所 使 用 单词 的 次 数 是 生成 DocumentTermMatrix 所 需要 的 信息 。 如 第 5 章 所 述 ， 可 以 利用 cast () 将 整洁 文本 格式 转换 为 这 种 文本 格式 。 











desc dtm <- word counts %>% 
cast , dtm (id, word, n) 


desc dtm 


## ««DocumentTermMatrix (documents: 32003, terms: 35901) >> 
## Non-/sparse entries: 1895310/1147044393 


## Sparsity 100% 
## Maximal term length: 166 
## Weighting : term frequency (tf) 











Vf 





可 以 看 到 这 个 数据 集 包 含 文档 (每 个 文档 都 是 NASA 数 据 集中 的 描述 字段 ) 和 词 项 (单词 ) 。 注 意 ， 这 个 文档 - 词 项 矩阵 示例 为 100% (或 非常 接近 ) 稀疏 ， 这 意味 着 该 矩阵 几乎 所 有 元 素 都 为 零 。 每 个 
零 元 素 为 文档 中 某 个 单词 出 现 的 次 数 。 

















(at 


dE 





准备 主题 建 模 








现在 使 用 topicmodels 包 来 创建 一 个 LDA 模 型 。 该 算法 会 产生 多 少 主题 呢 ? 这 是 一 个 与 k-means 聚 类 很 像 的 问题 ， 即 并 不 能 预先 获知 会 产生 多 少 主题 。 在 以 下 建 模 过 程 中 ， 举 试 生成 8 个 、16 个 、24 
个 、32 个 和 64 个 主题 。 最 终 发 现 当主 题 数 为 24 时 ， 文 档 仍 然 会 被 正确 地 划分 到 相应 的 主题 中 ， 但 超过 该 值 会 导致 分 布 ， 即 每 个 文档 都 各 自 属于 一 个 主题 ， 这 样 的 结果 是 有 问题 的 。 稍 后 会 详细 介绍 这 些 内 












































library (topicmodels) 

# be aware that running this model is time intensive 

desc lda <- LDA(desc dtm, k = 24, control = list(seed = 1234)) 
desc lda 


## A LDA VEM topic model with 24 topics. 






































这 是 一 个 随机 算法 ， 不 同 的 算法 初始 值 可 能 会 有 不 同 的 结果 ， 所 以 需要 指定 一 个 种 子 (seed) 来 让 算法 具有 重 现 性 ， 如 下 代码 所 示 。 


解释 主题 异型 


























现在 已 经 建立 了 模型 ， 利 用 tidy () 函数 来 使 模型 结果 变 得 整洁 ， 即 构建 一 个 整洁 数据 框 来 汇总 模型 结果 。tidytext 包 有 一 个 来 自 topicmodels 包 的 LDA 方 法 ， 该 方法 是 一 种 整洁 方法 。 





tidy lda <- tidy(desc lda) 


tidy lda 

## 4 A tibble: 861,624 x 3 

HE topic term beta 
HW «int» «chr» «dol» 
## 1 1 suit 1.003981e-121 
## 2 2 suit 2.630614e-145 
H3 3 suit 1.916240e-79 
## 4 4 suit 6.715725e-45 
HS 5 suit 1.738334e-85 
## 6 6 suit 7.692116e-84 
HT 7 suit 3.283851e-04 
H8 8 suit 3.738586e-20 
## 9 9 suit 4.846953e-15 
## 10 10 suit 4.765471e-10 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 861,614 more rows 











B 列 表示 由 这 个 词 项 生成 该 文档 中 相应 主题 的 概率 ， 该 词 项 (单词 ) 属于 








这 个 主题 的 概率 。 请 注意 ，B 的 一 些 值 非常 低 ， 而 有 些 值 则 并 不 是 很 低 。 


么 ， 每 个 主题 是 什么 呢 ? 来 看 看 每 个 主题 排名 前 十 的 单词 。 














top terms <- tidy lda 
group by(topic) $»$ 
top n(10, beta) %>% 
ungroup() %>% 
arrange (topic, -beta) 


top terms 


## # A tibble: 240 x 3 


HE topic term beta 
HW «int» «chr» «dbl» 
Hl E data 0.04488960 
## 2 ah soil 0.03676198 
H3 1 moisture 0.02954555 
## 4 i amsr 0.02437751 
H5 $ sst 0.01684001 
## 6 1 validation 0.01322457 
#7 1 temperature 0.01317075 
## 8 1 surface 0.01290046 
Ho d, accuracy 0.01225131 
## 10 si set 0.01155372 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 230 more rows 





通过 这 些 数据 框 来 解释 主题 并 不 容易 ， 在 图 





8-6 和 图 








8-7 中 可 以 看 到 这 些 信息 。 





top terms $»$ 
mutate (term = reorder (term, beta)) %>% 
group _by (topic, term) %>% 
arrange (desc (beta)) %>% 
ungroup() %>% 
mutate (term = factor (paste (term, topic, sep = " "), 
levels = rev (paste (term, topic, sep 
ggplot (aes (term, beta, fill = as.factor (topic))) + 
geom col(show.legend = FALSE) + 
coord flip() + 
Scale x discrete (labels = function (x) gsub("  .4$", "", 
labs (title = "Top 10 terms in each LDA topic", 
x = NULL, y = expression (beta)) + 
facet wrap(- topic, ncol = 3, scales 


"free") 


= ))) $$ 


x)) * 
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图 8-6: 利用 主题 建 模 方 法 得 到 NASA 元 数据 的 描述 字段 文本 中 的 热门 单词 


可 以 看 到 这 些 描述 字段 中 的 主导 词 是 “data”。 此 外 ， 在 这 些 词 项 集合 之 间 还 存在 着 一 些 有 意义 的 差异 ， 比 如 主题 12 是 关于 土壤 、 森 林 和 生物 量 的 词 项 ， 而 主题 21 是 关于 设计 、 系 统 和 技术 的 词 项 。 主 
题 建 模 过 程 已 经 为 这 些 描述 字段 确定 了 单词 类 别 ， 读 者 可 以 理解 这 些 类 别 的 含义 。 


每 个 主题 中 的 前 10 个 词 项 
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图 8-7: 在 NASA 元 数据 的 描述 字段 文本 的 主题 建 模 中 的 热门 单词 
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到 目前 为 止 ， 本 章 只 是 研究 了 哪些 单词 与 哪个 主题 有 关 。 下 面 来 看 看 哪些 主题 与 哪个 描述 字段 ( 即 文档 ) 相关 联 。 可 以 看 到 概率 y 会 不 同 ， 即 每 个 文档 属于 每 个 主题 的 概率 会 不 同 。 这 里 也 将 再 次 使 用 


tidy 方 法 。 





lda gamma «- tidy(desc lda, matrix - 
lda gamma 

## # A tibble: 768,072 fij 3 

HW 


document topic 
HW «chr» «int» 


## 1 / 55942a8ec63a7fe59b4986ef 1 
## 2 56cf5b00a759fdadc44e564a 工 
## 3 55942a89c63a7fe59b4982d9 1 
## 4 56cf5b00a759fdadc44e55cd 1 
## 5 55942a89c63a7fe59b4982c6 1 
## 6 55942a86c63a7fe59b498077 1 
## 7 56cf5b00a759fdadc44e56f8 1 
## 8 55942a8bc63a7fe59b4984b5 工 
## 9 55942a6ec63a7fe59b496bf7 1 
## 10 55942a8ec63a7fe59b4986f6 1 


"gamma") 


gamma 

«dbl» 
453820e-06 
158393e-05 
917441e-02 
249043e-05 
609442e-05 
666520e-05 
752082e-05 
308534e-05 
408626e-05 
878188e-05 


Mas SS UO NS D|DO 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/O0EBPS/Text/... with 768,062 more rows 








请 注意 ， 在 上 面 的 数据 框 中 可 看 到 一 些 概率 很 低 ， 一 些 概率 则 较 高 。 模 型 已 经 为 每 个 





上 题 的 描述 字段 分 配 了 一 个 概率 。 那 么 ， 这 些 概率 是 如 何 分 布 的 呢 ? 可视化 结果 如 图 8-8 所 示 。 








ggplot(lda gamma, aes(gamma)) 十 
geom histogram() + 
scale y 1og10 () + 
labs(title - "Distribution of probabilities for all topics", 
y = "Number of documents", x = expression (gamma)) 








所 有 主题 的 概率 分 布 
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8-8: NASA 元 数据 描述 字段 的 主题 建 模 中 的 概率 分 布 








首先 注意 到 y 轴 是 以 对 数 刻度 来 绘制 的 ， 否 则 很 难 理解 图 中 的 细节 信息 。 注 意 ，y 是 从 0 到 1， 这 是 给 定 文档 
附近 也 有 很 多 值 ， 这 是 属于 这 些 主题 的 文本 。 该 分 布 表明 文本 可 通过 是 否 属于 某 个 主题 来 进行 

















属于 给 定 主题 的 概率 。 在 零 附 近 有 很 多 值 ， 这 意味 着 有 很 多 文档 不 属于 任何 主题 。 此 外 ，y=1 
区 分 。 另 外 还 可 以 查看 每 个 主题 中 概率 的 分 布 情况 ， 如 图 8-9 所 示 。 















































ggplot(lda gamma, aes(gamma, fill = as.factor(topic))) + 
geom histogram(show.legend = FALSE) + 
facet wrap (~ topic, ncol = 4) + 
scale y log10() + 
labs(title = "Distribution of probability for each topic", 
y = "Number of documents", x = expression (gamma) ) 





来 看 看 图 


每 个 文档 都 在 图 


所 有 主题 的 概率 分 布 
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图 8-9: 在 NASA 元 数据 描述 字段 的 主题 建 模 中 每 个 主题 的 概率 分 布 





8-9 的 面板 中 进行 了 展示 ， 某 个 主题 的 y 值 表示 该 文档 属于 该 主题 的 概率 。 





8-9 中 的 主题 18， 有 一 个 文档 的 主题 被 清楚 地 排序 出 来 。 有 很 多 文档 的 值 接近 1， 由 模型 可 知 这 些 文档 属于 主题 18。 还 有 很 多 文档 的 Y 值 接近 0， 这 些 是 不 属于 主题 18 的 文档 。 


图 8-9 展 示 了 主题 建 模 过 程 中 用 于 选择 主题 数量 的 信息 类 型 。 当 尝试 将 主题 数量 设置 为 高 于 24 (例如 32 或 64) 时 ， 其 建 模 结果 在 临近 y=1 时 开始 变 得 平坦 ， 这 表示 没有 文本 能 进行 很 好 地 分 类 。 


主题 建 模 与 关键 词 的 联系 


下 面 来 查看 这 些 主 题 模型 与 关键 词 之 间 有 什么 关系 。 可 以 利用 full_join () 函数 来 处 理 人 工 标注 的 关键 词 ， 并 找 出 关键 词 与 主题 之 间 的 联系 。 





lda gamma «- full join(lda gamma, nasa keyword, by = c("document" = "id")) 


lda gamma 


## 4 A tibble: 3,037,671 x 4 
HW 


mwmwmhP 


document topic 
«chr» «int» 


garma 
<dbl> <chr> 


keyword 


55942a8ec63a7fe59b4986ef 1 6.453820e-06 JOHNSON SPACE CENTER 
55942a8ec63a7fe59b4986ef 1 6.453820e-06 PROJECT 
55942a8ec63a7fe59b4986ef 1 6.453820e-06 | COMPLETED 
56cf5b00a759fdadc44e564a 1 1.158393e-05 . DASHLINK 
56cf5b00a759fdadc44e564a 1 1.158393e-05 AMES 
56cf5b00a759fdadc44e564a 1 1.158393e-05 NASA 





## 7 55942a889c63a7fe59b498289 1 4.917441e-02 GODDARD SPACE FLIGHT CENTER 

## 8 55942a889c63a7fe59b498289 1 4.917441e-02 PROJECT 

## 9 55942889c63a7fe59b498289 1 4.917441e-02 COMPLETED 

## 10 56cf5b00a759fdadc44e55cd 1 2.249043e-05 DASHLINK 

## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 3,037,661 more rows 











可 以 使 用 filter () 函数 来 保留 概率 () (400.9) 大 于 某 个 值 的 文档 -主题 条 目 。 

















top keywords <- lda gamma %>% 
filter (gama > 0.9) %>% 
count (topic, keyword, sort = TRUE) 


top_keywords 


## Source: local data frame [1,022 x 3] 
## Groups: topic [24] 


HE 

HE topic keyword n 
Hu «int» «chr» «int» 
## 1 13 OCEAN COLOR 4480 
HE 13 OCEAN OPTICS 4480 
H3 13 OCEANS 4480 
## 4 11 OCEAN COLOR 1216 
## 5 11 OCEAN OPTICS 1216 
## 6 11. OCEANS 1216 
## 7 9 PROJECT 926 
## 8 12 EARTH SCIENCE 909 
## 9 9 COMPLETED 834 
## 10 16 OCEAN COLOR 768 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/0EBPS/Text/... with 1,012 more rows 

















每 个 主题 的 前 几 个 关键 词 是 什么 呢 (如 图 8-10 所 示 ) ? 











top keywords $»$ 
group by(topic) %>% 
top n(5, n) $»$ 
group by(topic, keyword) $»$ 
arrange (desc (n)) $>% 
ungroup() %>% 
mutate (keyword = factor (paste (keyword, topic, sep = " "), 
levels = rev (paste (keyword, topic, sep - " ")))) $»$ 
ggplot (aes (keyword, n, fill = as.factor (topic))) + 
geom col(show.legend = FALSE) + 
labs (title = "Top keywords for each LDA topic", 
x = NULL, y = "Number of documents") + 
coord flip() + 
Scale x discrete (labels - function(x) gsub(" . 
facet wrap(~ topic, ncol = 3, scales = "free") 


+$", "", x)) + 




















下 面 来 看 看 图 8-10 展 示 了 什么 内 容 。NASA 数 据 集 是 由 人 工 标记 的 关键 词 ， 并 且 本 例 为 NASA 数 据 集 的 描述 字段 构建 了 一 个 LDA 主 题 模 型 (3524/4 ERR) 。 图 8-10| 
集 ， 它 的 描述 字段 若 有 高 概率 属于 某 个 给 定 的 主题 ， 则 最 常见 的 人 工分 配 的 关键 词 是 什么 ?” 
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答 了 这 样 的 问题 : “对 于 一 个 数据 









































如 图 8-6 和 图 8-7 所 示 ， 主 题 13、 主 题 16 和 主题 18 相 互 之 间 的 关键 词 基本 上 是 重复 的 ( “OCEAN COLOR” "OCEAN OPTICS" "OCEANS" ) ， 因 为 这 些 主题 中 排名 靠 前 的 词 表现 出 的 差异 很 有 意 
思 。 还 要 注意 的 是 ， 根 据 文档 数量 ， 主 题 13、 主 题 16 和 主题 18 的 组 合 在 本 图 所 有 的 数据 集 总 数 中 占有 相当 大 的 比例 ， 如 果 再 包括 主题 11， 那 么 该 比例 将 会 更 大 。 从 数据 量 角度 而 言 ，NASA 数 据 集中 有 许多 
是 处 理 海洋 、 海 洋 颜色 和 海洋 光学 的 数据 集 。 在 主题 9、 主 题 10 和 主题 21 中 可 以 看 到 “PROJECT COMPLETED” 以 及 NASA 实 验 室 和 研究 中 心 的 名 字 。 其 他 重要 的 专题 领域 是 关于 大 气 科学 、 预 算 /财务 以 及 
人 口 /人 类 等 方面 的 关键 词 。 可 以 回 到 图 8-6 和 图 8-7 中 的 词 项 与 主题 ， 看 看 描述 字段 中 哪些 单词 使 数据 集 最 终 具 有 这 些 主题 。 例 如 ， 主 题 4 与 关于 人 口 和 人 类 的 关键 词 相关 联 ， 并 且 该 主题 的 一 些 热 词 


是 “population”“international”“center” 和 “university”。 
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本 章 通过 使 用 网 络 分 析 、tf-idf 和 主题 建 模 方法 对 NASA 数 据 集 进 行 了 更 深入 的 分 析 。 具 体 而 言 ， 现 在 已 经 有 了 更 多 关于 关键 词 如 何 相互 关联 以 及 哪些 数据 集 可 能 相关 的 信息 。 主 题 模 型 可 以 上 
述 字段 中 的 单词 来 给 出 关键 词 ， 或 者 通过 分 析 关 键 词 给 出 一 些 研究 领域 中 最 重要 的 关键 词组 合 。 

















于 根据 描 














第 9 章 ”案例 研究 : 分 析 Usenet 文 本 














在 最 后 一 章 中 ， 我 们 将 使 用 本 书 中 学 到 的 内 容 来 对 1993 年 的 20 个 Usenet 公 告 牌 的 20000 条 消息 进行 分 析 。 该 数据 集 包括 了 与 政治 、 宗 教 、 汽 车 、 体 育 和 加 密 等 主题 相关 的 新 闻 组 ， 同 时 也 提供 了 许多 由 
撰写 的 文本 集 。 该 数据 集 可 以 通过 http://qwone.com/~jason/20Newsgroups/ (下 载 20news-bydate.tar.gz 文 件 ) 公开 获得 ， 并 且 在 文本 分 析 和 机 器 学 习 中 得 到 了 广泛 应 用 。 



































预 处 理 








本 章 将 从 阅读 20news-bydate 文 件 夹 的 所 有 消息 来 进行 案例 分 析 ， 该 文件 夹 由 子 文件 夹 组 成 ， 而 子 文件 夹 中 的 每 个 文件 是 一 个 消息 的 内 容 。 可 以 使 用 read lines () 函数 、map () 函数 和 unnest () 
函数 的 组 合 来 读 取 这 些 文件 。 














全 请 注意 ， 可 能 需要 几 分 钟 才能 污 完 所 有 的 文档 . 





library (dplyr) 
library (tidyr) 
library (purrr) 
library (readr) 


training folder <- "data/20news-bydate/20news-bydate-train/" 


# Define a function to read all files from a folder into a data frame 
read folder «- function(infolder) { 
data frame(file = dir(infolder, full.names = TRUE)) %>% 
mutate (text = map (file, read lines)) %>% 
transmute (id = basename (file), text) %>% 
unnest (text) 


} 


# Use unnest() and map() to apply read folder to each subfolder 

raw text <- data frame(folder = dir(training folder, full.names = TRUE)) %>% 
unnest (map (folder, read folder)) $>% i 
transmute (newsgroup = basename (folder), id, text) 


raw_text 


# A tibble: 511,655 x 3 
newsgroup id 
Xchr» «chr» 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
alt.atheism 49960 
10 alt.atheism 49960 
4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 511,645 more rows, and 1 more variables: text «chr» 


Ow0-1oU^5uN»ZA 














注意 newsgroup 列 和 id 列 ，newsgroup 列 描述 了 每 个 消息 来 自 哪 一 个 新 闻 组 ，id 列 标识 了 该 新 闻 组 中 唯一 的 消息 。 新 闻 组 中 有 什么 样 的 内 容 ， 每 个 新 闻 组 有 多 少 消息 (如 图 9-1 所 示 ) ? 


























library (ggplot2) 


raw text %>% 
group by(newsgroup) $»$ 
summarize (messages = n distinct(id)) %>% 
ggplot (aes (newsgroup, messages)) + 
geom col() + 
coord flip() 
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图 9-1: 每 个 新 闻 组 的 消息 数 














可 以 看 到 Usenet 公 告 牌 的 命名 规则 有 层次 之 分 ， 比 如 主题 以 “talk” "sci" ak "rec" 


o 


得 开始 ， 其 后 为 更 具体 的 单词 。 


预 处 理 文本 





本 书 的 大 多 数 数据 集 已 经 进行 了 预 处 理 ， 这 意味 着 不 必 再 进行 一 些 删除 操作 ， 例 如 ，Jane Austen 小 说 中 的 版 权 声 明 。 但 实际 上 每 个 消息 都 包含 一 些 在 分 析 中 不 希望 有 的 结构 和 额外 的 文本 。 例 如 ， 每 
个 消息 都 有 一 个 标题 ， 其 中 包含 描述 消息 的 字段 ， 例 如 “from: ”或 “in_reply to: ”。 有 些 消息 还 包含 一 些 出 现在 一 行 后 面 的 自动 电子 邮件 签名 。 





























这 种 预 处 理 可 以 在 dplyr 包 中 完成 ， 这 会 使 用 来 自 stringr 的 cumsum () 函数 和 str_detect () 函数 一 起 完成 。 


























library (stringr) 


# must occur after the first occurrence of an empty line, 
# and before the first occurrence of a line starting with -- 


filter(cumsum(text == "") 
cumsum(str detect(text, "^--")) == 0) %>% 
ungroup () 




















许多 行 也 有 吝 套 文本 ， 用 于 表示 来 自 其 他 用 户 的 引用 ， 通 常 这 种 行 以 “so-and-sohttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/17479/OEBPS/Text/…writes” 开始。 可 用 几 个 正则 表达 式 来 删除 这 些 行 。 












































生还 需要 手动 删除 两 个 包含 大 量 非 文 本 内 容 的 消息 文件 : 9704 和 9985。 





Cleaned text <- cleaned text %>% 
filter(str detect(text, "^[^»]*[A-Za-zW d]") | text == "", 
!str detect(text, "writes (:|NN NN. NV.) $"), 
Istr detect (text, "^In article <"), 
lid in% c(9704, 9985)) 























下 面 是 删除 停 用 词 ， 要 使 用 unnest_tokens () 函数 来 将 数据 集 拆 分 为 词 条 。 

















library (tidytext) 


usenet words <- cleaned text %>% 
unnest tokens (word, text) %>% 


filter(str detect (word, "[a-z']$"), 
!word $in$ stop wordsSword) 
































每 个 原始 文本 数据 集 都 需要 不 同步 骤 的 数据 清理 工作 ， 这 通常 会 涉及 一 些 试 错 (trial and error) 操作 ， 并 研究 数据 集中 的 异常 情况 。 注 意 到 这 点 很 重要 ， 这 种 清理 工作 可 以 使 用 整洁 工具 来 实现 ， 如 
dplyrfütidyr. 











新 闻 组 中 的 单词 
































已 经 删除 了 标题 、 签 名 和 格式 ， 下 面 可 以 研究 常用 的 单词 。 对 于 初学 者 而 言 ， 可 以 在 整个 数据 集 或 特定 新 闻 组 中 找到 最 常用 的 单词 。 


usenet words %>% 
count(word, sort = TRUE) 


## # A tibble: 68,137 x 2 
dH 


word n 
HW «chr» «int» 
## 1 people 3655 
## 2 time 2705 
H3 god 1626 
## 4 system 1595 
## 5 program 1103 


H6 bit 1097 
## 7 information 1094 


## 8 windows 1088 
## 9 government 1084 
## 10 space 1072 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 68,127 more rows 


words by newsgroup «- usenet won 
count (newsgroup, word, sort = 
ungroup () 

words_by_newsgroup 


## # A tibble: 173,913 x 3 


ds %>% 
TRUE) %>% 


dH newsgroup word n 
Hr <chr> «chr» «int» 
## 1  soc.religion.christian god 917 
## 2 sci.space space 840 
H3 talk.politics.mideast people 728 
HA Sci.crypt key | 704 
## 5  comp.os.ms-windows.misc windows 625 
## 6 talk.politics.mideast armenian 582 
#7 sci.crypt do 549 
H8 talk.politics.mideast turkish 514 
## 9 rec.autos car 509 
1H 10  talk.politics.mideast armenians 509 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 173,903 more rows 





在 新 闻 组 中 查找 tf-idf 


我 们 还 是 期 望 新 闻 组 在 主题 和 内 容 方面 会 有 所 不 同 ， 这 可 由 这 些 新 闻 组 的 不 同 词 频 来 进行 刻画 ， 








因此 可 














za 


使 








tf-idf 指 标 来 量化 这 种 差异 性 (这 在 第 3 章 介绍 过 ) 。 











tf idf <- words by newsgroup %>% 


bind tf idf(word, newsgroup, n) %>% 


arrange (desc(tf idf)) 


tf idf 
# A tibble: 173,913 x 6 
newsgroup 
«chr» 


comp.sys.ibm.pc.hardware 
talk.politics.mideast 
rec.motorcycles 
talk.politics.mideast 


rec.sport.hockey 


word 

«chr» 

scsi 
armenian 
bike 
armenians 
encryption 
nhl 


talk.politics.misc stephanopoulos 


rec.motorcycles 
rec.sport.hockey 


1 
2 
3 
4 
5 sci.crypt 
6 
7 
8 
9 
0 comp.windows.x 


bikes 
hockey 
oname 


<i 


n 
nt> 
483 
582 
324 
509 
410 
157 
158 

97 
270 
136 


tf 
«dbl» 


0.01761681 
0.00804890 
0.01389842 
0.00703933 
0. 
0 
0 
0 
0 


00816099 


.00439665 
.00416228 
.00416095 
.00756112 
0. 


00353550 


idf 
«dbl» 


1.20397 
2.30259 
1.20397 
2.30259 
Js 
2 
2 
2 
1 


89712 


.99573 
.99573 
.99573 
.60944 
P 
# http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


99573 


with 173,903 more rows, and 1 more variables: tf idf «dbl» 





可 以 通过 几 个 选 定 组 排名 靠 前 的 tf-idf 来 提取 这 








E 题 所 特有 的 单词 。 例 如 可 以 看 看 所 有 以 sci 开 头 的 公告 牌 ， 如 





图 9-2 所 示 。 
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图 9-2: 在 每 个 与 科学 相关 的 新 闻 组 中 ， 有 具有 最 高 tfidf 的 12 个 词 项 





tf idf $»$ 
filter(str detect (newsgroup, "^sci\\.")) %>% 
group by (newsgroup) %>% 
top n(12, tf idf) %>% 
ungroup() %>% 
mutate (word = reorder (word, tf idf)) %>% 
ggplot (aes (word, tf_idf, fill = newsgroup)) + 
geom col(show.legend = FALSE) + 
facet wrap(~ newsgroup, scales = "free") + 
ylab("tf-idf") + 
coord flip() 





从 图 9-2 可 以 看 出 特定 新 闻 组 有 许多 专 有 的 特征 词 ， 例 如 sci.electronics 主 题 中 的 “wiring” (布线 ) 和 “circuit” (电路 ) ， 空 间 新 闻 组 的 “orbit” (轨道 ) 和 “lunar” (BER) 。 可 以 使 用 相同 的 代 
码 研究 其 他 的 新 闻 组 。 





在 文本 内 容 中 哪些 新 闻 组 之 间 比 较 相似 ? 可 通过 使 用 widyr 软 件 包 中 的 pairwise_cor () 函数 找到 每 个 新 闻 组 中 词 频 相关 的 组 合 来 回答 这 个 问题 。 (请 参见 第 4 章 的 “检验 成 对 相关 性 ”一 节 的 内 容 ) 





library (widyr) 


newsgroup cors <- words by newsgroup %>% 
pairwise cor(newsgroup, word, n, sort = TRUE) 


newsgroup cors 


## # A tibble: 380 x 3 

dH iteml item2 correlation 
HW «chr» «chr» «dbl» 
Hl talk.religion.misc ^ soc.religion.christian 0.8347275 
H2 Soc.religion.christian talk.religion.misc ^ 0.8347275 
H3 alt.atheism talk.religion.misc 0.7793079 
HA talk.religion.misc alt.atheism  0.7793079 
## 5 alt.atheism soc.religion.christian 0.7510723 
H6 Ssoc.religion.christian alt.atheism  0.7510723 
HT comp.sys.mac.hardware comp.sys.ibm.pc.hardware | 0.6799043 
## 8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware 0.6799043 
## 9 rec.sport.baseball rec.sport.hockey | 0.5770378 
## 10 rec.sport.hockey rec.sport.baseball 0.5770378 
## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 370 more rows 





然后 过 滤 掉 新 闻 组 中 的 强 相关 性 ， 并 按 网 络 的 方式 来 可 视 化 它们 (如 图 9-3 所 示 ) . 








library (ggraph) 
library (igraph) 
set.seed(2017) 


newsgroup cors %>% 


filter (correlation > .4) %>% 
graph from data frame() %>% 
ggraph(layout = "fr") 十 


geom edge link(aes(alpha = correlation, width = correlation)) 十 
geom node point(size = 6, color = "lightblue") + 
geom node text(aes(label = name), repel = TRUE) + 


theme void() 





r 





由 图 9-3 可 知 ， 这 里 有 四 个 新 闻 组 的 聚 簇 : 计算 机 /电子 (computers/electronics) 、 











因为 这 些 新 闻 组 有 共同 的 单词 和 主题 。 





题 建 模 


在 第 6 章 中 ， 使 用 LDA 算 法 将 一 组 章节 分 到 











接 下 来 分 析 4 个 与 科学 相关 的 新 闻 组 消息 。 首 先 使 
拟 合 该 模型 。 
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图 9-3: 基于 单词 次 数 相 关 性 得 到 的 Usenet 新 闻 组 网 络 ， 仅 包括 相关 性 系数 大 于 0.4 的 网 络 连 接 


原来 的 书 中 。LDA 是 否 也 可 以 对 不 同 新 闻 组 的 Usenet 消 息 进行 整理 呢 ? 





用 cast dtm () 函数 (参见 第 5 章 的 “将 整洁 文本 数据 转换 为 矩阵 ”一 节 的 内 容 ) 得 到 文档 - 词 项 矩阵 ， 然 后 使 





correlation 
0.5 

EH 0.6 

mo: 


mo: 


治 /宗教 (politics/religion) 、 机 动车 (motor vehicles) 和 运动 (sport) 。 从 某 种 意义 上 说 这 是 有 道理 的 ， 




















topicmodels 包 中 的 LDA () 函数 来 





# include only words that occur at least 50 

word sci newsgroups <- usenet words %>% 
filter(str detect (newsgroup, "^sci")) %>% 
group by(word) 3>% 
mutate (word total = n()) 
ungroup() $»$ 
filter(word total » 50) 


E 


# convert into a document-term matrix 


times 


# with document names such as sci.crypt 14147 


sci dtm <- word sci newsgroups %>% 
unite (document, newsgroup, id) %>% 


count (document, word) $»$ 
cast dtm(document, word, n) 


library (topicmodels) 
sci lda «- LDA(sci dtm, k = 4, control = list(seed = 2016)) 











该 模型 提取 了 四 个 主题 ， 那 么 这 四 个 模型 是 否 与 新 闻 组 相 匹 配 呢 ? 可 用 第 6 章 介绍 的 方法 来 回答 这 个 问题 ， 该 方法 会 根据 其 中 最 常用 的 术语 来 描述 每 个 主题 (如 图 9-4 所 示 ) 。 





sci lda %>% 
tidy() %>% 
group by(topic) $»$ 
top n(8, beta) $»$ 
ungroup() %>% 
mutate (term = reorder (term, beta)) %>% 
ggplot (aes (term, beta, fill = factor(topic))) + 
geom col(show.legend = FALSE) + 
facet wrap(- topic, scales = "free y") + 
coord flip() 
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图 9-4: 在 科学 相关 新 闻 组 上 用 LDA 拟 合 主题 模型 ， 并 从 这 些 模 型 中 取 前 八 个 单词 


根据 这 些 主题 建 模 得 到 的 单词 ， 可 能 会 怀疑 主题 得 到 的 新 闻 组 。 主 题 1 肯定 代表 了 sci.space 新 闻 组 (因此 ， 最 常见 的 单词 是 “太空 ”) ， 主 题 2 可 能 来 自 密码 学 ， 其 中 包括 “key” 和 “encryption ”。 
正如 在 第 6 章 “ 文 档 与 主题 的 概率 ”一 节 所 做 的 那样 ， 可 以 通过 查看 每 个 新 闻 组 中 文档 对 每 个 主题 是 否 具有 更 高 的 “gamma” 值 来 确认 这 一 点 (如 图 9-5 所 示 ) . 














sci lda %>% 
tidy (matrix = "gamma") %>% 
separate (document, c("newsgroup", "id"), sep = " ") $%>% 
mutate (newsgroup = reorder (newsgroup, gamma * topic)) %>% 
ggplot (aes (factor (topic), gamma)) + 
geom boxplot() + 
facet wrap(- newsgroup) + 
labs (x = "Topic", 
y = "# of messages where this was the highest % topic") 
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图 9-5: 每 个 Usenet 新 闻 组 中 各 个 主题 的 gamma 值 分 布 


就 像 在 文献 分 析 中 所 看 到 的 ， 主 题 建 模 无 须 类 标签 就 能 发 现 文本 中 存在 的 不 同 主题 。 


























请 注意 ，Usenet 消 息 的 划分 结果 不 如 书 的 章节 那么 清楚 ,每 个 新 闻 组 的 大 量 消息 都 会 对 其 他 主题 有 较 高 “gamma” 值 ， 这 并 不 奇怪 ， 因 为 许多 信息 很 短 ， 并 且 在 常用 词汇 上 可 能 会 有 重生 (例如 ， 太 
空 旅行 的 讨论 可 能 包括 许多 与 电子 相同 的 词 ) 。 这 是 一 个 真实 的 例子 ， 它 能 说 明 LDA 如 何 将 文档 划分 为 粗略 的 主题 ， 而 且 还 有 一 定 程度 的 重生 。 





情感 分 析 


可 以 使 用 在 第 2 章 中 探讨 过 的 情感 分 析 技 术 来 获得 Usenet 帖 子 中 出 现 的 正面 单词 和 负面 单词 的 词 频率 。 哪 些 新 闻 组 整体 是 最 正面 或 最 负面 的 呢 ? 








在 这 个 例子 中 ， 将 使 用 AFINN 情 感 词典 来 为 每 个 单词 提供 正面 或 负面 的 数字 分 数 ， 并 用 条 形 图 来 进行 可 视 化 (如 图 9-6 所 示 ) 。 





newsgroup sentiments <- words by newsgroup %>% 
inner join(get sentiments ("afinn"), by = "word") %>% 
group by(newsgroup) $»$ 
summarize(score = sum(score * n) / sum(n)) 


newsgroup sentiments $»$ 
mutate (newsgroup = reorder (newsgroup, score)) %>% 
ggplot (aes (newsgroup, score, fill = score > 0)) + 
geom col(show.legend = FALSE) + 
coord flip() + 
ylab ("Average sentiment score") 
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图 9-6: 每 个 新 闻 组 中 帖子 的 平均 AFINN 分 数 








根据 这 一 分 析 结 果 ，misc.forsale 的 新 闻 组 是 最 正面 的 。 这 是 因为 该 新 闻 组 可 能 包含 许多 用 户 想 要 销售 产品 的 正面 形容 词 ! 





基于 单词 的 情感 分 析 


值得 注意 的 是 ， 为 什么 一 些 新 闻 组 最 终 会 比 其 他 新 闻 组 更 正面 或 更 负面 。 可 查看 每 个 单词 对 整体 正面 和 负面 情感 的 贡献 。 





contributions <- usenet words %>% 
inner join(get sentiments ("afinn"), by = "word") %>% 
group by(word) 3>% 
summarize (occurences = n(), 
contribution = sum(score)) 


contributions 


## # A tibble: 1,909 x 3 
dH 


HW «chr» «int» «int» 
H1 abandon 13 -26 
## 2 abandoned 19 -38 
## 3 abandons 3 -6 
## 4 abduction 2 -4 
#5 abhor 4 -12 
## 6 — abhorred 1 -3 
## 7 abhorrent 2 -6 
## 8 abilities 16 32 
## 9 ability 177 354 
## 10 aboard 8 


8 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 1,899 more rows 





哪些 单词 对 总 体 情感 评分 影响 最 大 ( 见 图 9-7) ? 








contributions $»$ 
top n(25, abscontribution) %>% 
mutate (word = reorder (word, contribution)) %>% 
ggplot (aes (word, contribution, fill = contribution > 0)) + 
geom col(show.legend = FALSE) + 
coord flip() 





将 图 中 的 这 些 单词 作为 每 个 消息 情感 的 指标 是 合理 的 , 但 是 若 “True” 是 “Not True” 的 一 部 分 (或 类 似 负面 表达 ) ， 则 会 出 问题 ， 另 外 ，“God” 和 “Jesus” 显然 在 Usenet 文 本 中 是 非常 普遍 的 ， 
在 很 多 种 情形 (正面 情形 或 负面 情形 ) 中 都 可 以 使 用 ， 这 时 也 有 可 能 出 问题 。 





人 们 也 可 能 会 关心 哪些 单词 对 每 个 新 闻 组 贡献 最 大 ， 以 便 可 以 看 出 哪些 新 闻 组 可 能 被 错误 地 估计 。 因 此 ， 可 以 计算 每 个 单词 对 每 个 新 闻 组 情感 评分 的 贡献 ， 并 从 选择 的 单词 中 对 贡献 最 大 的 单词 进行 可 
视 化 (如 图 9-8 所 示 ) 。 








top sentiment words <- words by newsgroup %>% 
=n 


inner join(get sentiments ("afinn"), by = "word") %>% 
mutate (contribution = score * n / sum(n)) 


top sentiment words 
## # A tibble: 13,063 x 5 


He newsgroup word n score contribution 
HW Xchr» «chr» «int» «int» «dbl» 
## 1 soc.religion.christian god 917 1 0.014418012 
## 2 soc.religion.christian jesus 440 1 0.006918130 
H3 talk.politics.guns gun 425 -1 -0.006682285 
HA talk.religion.misc god 296 1 0.004654015 
H5 alt.atheism god 268 1 0.004213770 
1H 6 soc.religion.christian faith 257 1 0.004040817 
## 7 talk.religion.misc jesus 256 1 0.004025094 
## 8 talk.politics.mideast killed 202 -3 -0.009528152 
## 9  talk.politics.mideast war 187 -2 -0.005880411 
## 10 soc.religion.christian true 179 2 0.005628842 


## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... with 13,053 more rows 
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图 9-7: Usenet 文 本 中 对 正面 /负面 情感 评分 贡献 最 大 的 词汇 


这 证 实 了 关于 misc.forsale 新 闻 组 的 假设 : 大 多 数 情感 是 由 “excellent” 和 “perfect” 这 样 正面 的 形容 词 得 到 的 ， 还 可 以 看 到 多 少 情感 与 主题 混淆 了 。 无 神 论 (atheism) 新 闻 组 很 可 能 在 负面 情况 下 
详细 讨论 “God”， 但 最 终 可 能 导致 新 闻 组 是 正面 的 。 同 样 ， 即 使 公民 在 正面 讨论 枪 ，“gun” 一 词 可 能 对 talk.politics.guns 新 闻 组 有 负面 贡献 。 
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图 9-8: 在 6 个 新 闻 组 的 每 一 个 中 找 出 12 个 对 情感 分 数 贡 献 最 多 的 单词 


这 表明 情感 分 析 可 能 会 被 主题 所 混淆 ， 所 以 ， 应 该 在 进行 深入 分 析 之 前 先 考察 有 影响 力 的 单词 。 


通过 消息 来 进行 情感 分 析 


也 可 以 通过 分 组 来 尝试 找到 最 正面 和 最 负面 的 个 人 消息 ， 并 通过 id 而 不 是 新 闻 组 进行 汇总 。 





sentiment messages <- usenet words %>% 
inner join(get sentiments ("afinn"), by = "word") %>% 
group by(newsgroup, id) %>% 
summarize (sentiment = mean (score), 
words = n()) %>% 
ungroup() %>% 
filter(words >= 5) 





AoT (这 些 单词 对 情感 有 贡献) 的 信息 。 


那么 ， 最 正面 的 消息 是 什么 ? 





sentiment messages %>% 
arrange (desc (sentiment)) 


## # A tibble: 3,554 x 4 


dH newsgroup id sentiment words 
HW <chr> «chr» «dbl» «int» 
## 1 rec.sport.hockey 53560 3.888889 18 
H2 rec.sport.hockey 53602 3.833333 30 
H3 rec.sport.hockey 53822 3.833333 6 
## 4 rec.sport.hockey 53645 3.230769 13 
H5 rec.autos 102768 3.200000 5 
H6 misc.forsale 75965 3.000000 5 
HT misc.forsale 76037 3.000000 5 
H8 rec.sport.baseball 104458 3.000000 11 
## 9 rec.sport.hockey 53571 3.000000 5 


## 10 comp.os.ms-windows.misc 9620 2.857143 7 


## 4 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


with 3,544 more rows 











来 看 看 整个 数据 集中 最 正面 的 消息 。 为 了 实现 这 一 点 ， 可 以 写 一 个 简短 的 函数 来 打印 指定 信息 。 





print message <- function(group, message id) { 
result <- cleaned text $»$ 
filter(newsgroup — group, id — message id, text !- "") 


cat(result$text, sep = "\n") 
} 


print message ("rec.sport.hockey", 53560) 
## Everybody. Please send me your predictions for the Stanley Cup Playoffs! 


## I want to see who people think will win.!!!!!!! 
## Please Send them in this format, or something comparable: 


## 1. Winner of Buffalo-Boston 

## 2. Winner of Montreal-Quebec 

## 3. Winner of Pittsburgh-New York 

## 4. Winner of New Jersey-Washington 

## 5. Winner of Chicago- (Minnesota/St.Louis) 
## 6. Winner of Toronto-Detroit 

## 7. Winner of Vancouver-Winnipeg 

## 8. Winner of Calgary-Los Angeles 

## 9. Winner of Adams Division (1-2 above) 

## 10. Winner of Patrick Division (3-4 above) 
iH 11. Winner of Norris Division (5-6 above) 
## 12. Winner of Smythe Division (7-8 above) 
## 13. Winner of Wales Conference (9-10 above) 
## 14. Winner of Campbell Conference (11-12 above) 
## 15. Winner of Stanley Cup (13-14 above) 


## I will summarize the predictions, and see who is the biggest 

## INTERNET GURU PREDICTING GUY/GAL. 

## Send entries to Richard Madison 

## rrmadiso@napier.uwaterloo.ca 

## PS: I will send my entries to one of you folks so you know when I say 




















看 起 来 这 个 消息 被 选中 的 原因 是 多 次 使 








“winner” 这 个 单词 。 最 负面 的 消息 是 什么 呢 ? 原来 ， 最 负 














的 消息 也 来 自 于 曲棍球 网 站 ， 但 却 有 一 个 非常 不 同 的 态度 。 














sentiment messages %>% 
arrange (sentiment) 


## # A tibble: 3,554 x 4 


dH newsgroup id sentiment words 
HW «chr» «chr» «dbl» «int» 
Hl rec.sport.hockey 53907 -3.000000 6 
H2 Sci.electronics 53899 -3.000000 5 
## 3 talk.politics.mideast 75918 -3.000000 7 
Hr rec.autos 101627 -2.833333 6 
H5 comp.graphics 37948 -2.800000 5 
## 6 comp.windows.x 67204 -2.700000 10 
HT talk.politics.guns 53362 -2.666667 6 
H8 alt.atheism 51309 -2.600000 5 
## 9 comp.sys.mac.hardware 51513 -2.600000 5 
## 10 rec.autos 102883 -2.600000 5 
## # http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17479/OEBPS/Text/... 


print message ("rec.sport.hockey", 53907) 


## Losers like us? You are the fucking moron who has never heard of the Western 
## Business School, or the University of Western Ontario for that matter. Why 
## don't you pull your head out of your asshole and smell something other than 
## shit for once so you can look on a map to see where UWO is! Back to hockey, 
## the North Stars should be moved because for the past few years they have 

## just been SHIT. A real team like Toronto would never be moved!!! 

## Andrew-- 


with 3,544 more rows 














至 此 ， 可 以 很 有 把 握 地 认为 情感 分 析 起 作 











r! 


n-gram 分 析 


第 4 章 考虑 了 Jane Austen 小 说 中 “not” 和 “no” 等 词 对 情感 分 析 的 影响 ， 例 如 “don” tlike" 短语 是 否 会 导致 情感 被 错误 地 标记 为 正 


库 ， 所 以 这 里 想 知道 文本 中 的 情感 分 析 结果 是 否 十 倒 了 。 


首先 找到 并 计算 Usenet 消 息 中 的 所 有 二 元 组 (bigrams) 。 





的 。Usenet 数 据 集 是 一 个 非常 大 的 、 非 常 现代 的 文本 语 料 














usenet bigrams <- cleaned text $»$ 
unnest tokens (bigram, text, token = "ngrams", n = 2) 
usenet bigram counts <- usenet bigrams $» 
count(newsgroup, bigram, sort = TRUE) $ 
ungroup() %>% 
separate (bigram, c("wordl", 


名 
>% 


"word2"), sep = " ") 











通常 人 们 认为 有 六 个 否定 单词 (例如 “no” 
了 在 “错误 ”方向 上 最 常见 的 单词 。 


“not” 和 “without” 等 ) ， 





因此 可 为 这 六 个 词 定义 一 个 列表 ， 并 对 最 常 跟随 这 些 否定 


词 ， 并 且 是 情感 相关 的 单词 进行 可 视 化 (如 图 9-9 所 示 ) 。 该 图 














ID 














negate words «- c("not", "without", "no", "can't", "don't", "won't") 
usenet bigram counts %>% 

filter (wordl $in$ negate words) %>% 

count (wordl, word2, wt = n, sort = TRUE) %>% 

inner join(get sentiments ("afinn"), by = c(word2 = "word")) $»$ 


n 
mutate (contribution = score * nn) $5$ 
group by(wordl) $»$ 

top n(10, abs (contribution) ) 
ungroup() %>% 

mutate (word2 = reorder (paste (word2, wordl, sep = " ^"), contribution)) %>% 
ggplot (aes (word2, contribution, fill = contribution > 0)) + 

geom col(show.legend = FALSE) + 

facet wrap(- wordl, scales = "free", nrow = 3) + 
scale x discrete (labels = function (x) gsub(" .4$", "", 
xlab ("Words preceded by a negation") + = 

ylab ("Sentiment score * # of occurrences") + 

theme (axis.text.x = element_text (angle = 90, hjust = 1)) + 
coord flip() 


S>% 


x)) + 





从 图 9-9 可 以 看 出 ， 





"don' t want/like/care” 是 导致 误 识别 为 正面 情感 最 多 的 单词 ， 而 “no problem” 是 导致 误 识 别 为 负面 情感 的 单词 。 
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图 9-9: 在 “否定 ” 词 后 面 对 情感 贡献 最 大 的 单词 


总 结 


在 对 Usenet 消 息 的 分 析 中 ， 几 乎 将 本 书 介绍 的 所 有 整洁 文本 挖掘 方法 都 用 上 了 ， 这 些 方法 有 tf-idf、 主 题 建 模 、 情 感 分 析 、n-gram 词 条 化 等 。 通 过 本 章 的 学 习 ， 以 及 对 本 书 所 有 案例 的 理解 ， 就 可 依靠 
一 小 部 分 常用 的 工具 来 进行 研究 和 可 视 化 。 希 望 这 些 例子 给 出 了 整洁 文本 分 析 (乃至 整洁 数据 分 析 ) 有 多 少 相同 之 处 。 
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封面 简介 


本 书 封 面 上 的 动物 是 一 只 欧洲 免 (Oryctolagus cuniculus) ， 它 是 生活 在 西班牙 、 葡 萄 牙 和 北非 的 哺乳 动物 。 现 在 ， 受 欧洲 移民 的 影响 ， 这 种 动物 在 世界 各 地 陆续 被 发 现 。 由 于 缺乏 天 敌 ， 在 一 些 地 区 被 
列 为 入 侵 物 种 。 


欧洲 免 的 凑 色 一 般 为 灰 棕色 ， 体 长 为 34~50 厘 米 。 这 些 免 子 拥有 强壮 的 后 腿 ， 体 型 较 大 ， 这 使 得 它们 足以 快速 地 从 一 个 地 方 跳 到 另 一 个 地 方 。 作 为 群居 动物 ， 欧 洲 免 以 小 群 的 形式 生活 在 一 起 。 它 们 吃 
草 、 种 子 、 树 皮 、 根 和 蔬菜 。 


很 久 以 前 人 们 就 驯化 了 欧洲 免 ， 最 早 可 追溯 到 罗马 帝国 时 代 。 这 种 兔子 的 肉 、 免 毛 或 免 皮 都 具有 很 高 的 价值 ， 也 可 以 作为 宠物 饲养 。 随 着 时 间 的 推移 ， 已 经 出 现 了 不 同 的 品种 ， 如 Angora 或 Holland 
Lop。 


O 〇 ”Reilly 封 面 上 的 许多 动物 都 濒临 灭绝 ， 但 它们 对 世界 很 重要 。 要 了 解 更 多 有 关 如 何 帮 助 这 些 动物 的 信息 ， 请 访问 animals.oreilly.com。 








封面 上 的 图 来 自 “History of British Quadrupeds”。 








